张俊鹏
整合基因调控信息和FAIR原理知识有助于发现致病基因调控变异
2026-2-14 10:36
阅读:251

整合基因调控信息和FAIR原理知识有助于发现致病基因调控变异 

全基因组测序(WGS)成本的显著下降以及健康保险计划对 WGS 覆盖范围的增长加速了 WGS 在临床领域的应用诊断与研究目的。从诊断性全外显子测序(WES)向 WGS 的转变,使得人们能够看到人类基因组中编码氨基酸的~1%之外的遗传变异。这些非编码变异可能具有功能性和致病性,因为它们调控基因表达。 

如果 WES 无法获得遗传诊断,通常会应用 WGS。一个很好的例子是先天性心脏病(CHD),这是一种常见疾病,影响约 1%的活产。WES 和染色体微阵列在不到 30%的病例中识别出致病变异。然而,近年来 WGS 的普及使研究人员能够识别出导致该疾病的调控变异。2020 年的一项开创性研究表明,大约每 1000 名新生儿中就有 1 名可能携带导致先天性心脏病的调控变异。此外,先天性心脏病常由新发显性变异株引起,这些变异体可被三重组 WGS 检测到,且由于个体数量较少,更容易被识别为致病性。 

由于基因调控元件数量众多(增强子、启动子等),远超编码蛋白基因的数量级,致病调控变异的识别具有挑战性。ENCODE项目就生成了超过一百万个候选基因调控元件的图谱,占基因组总量的 20%以上。与蛋白质编码变异在经典三联密码和蛋白质结构变化背景下的影响不同,基因调控变异的影响高度依赖于受影响的特定调控元素、特定细胞和组织类型以及发育环境。 

非编码变异的解释基于关于基因调控的多层信息。NIH 表观基因组路线图项目提供了 100 多种细胞和组织类型发育环境中基因调控元件的基础图谱。GTEx 发表了关于组织特异性基因表达和 eQTL 关联的丰富信息来源。正在进行的发育性 GTExdGTEx)项目扩展了早期图谱,涵盖了发育、细胞和解剖环境中变异、调控元件和基因的关系。其他相关项目如人类细胞图谱、PsychEncode和脑倡议细胞图谱网络(BICAN),正在应用越来越多样化的检测方法,评估基因表达并解码特定细胞类型和组织中各种发育和生理情境下的基因调控。 

关于基因调控的来源和数据量日益多样化,要求比传统集中式数据仓库方法更具可扩展性的聚合策略。在原始数据和元数据方面,FAIR(可查找、可访问、互作和可重用)原则已被广泛采用和改进,并已被证明有效。随着人工智能工具的出现,这一趋势更加明显,这些工具关键地依赖于训练数据的人工智能准备度,而公平性是人工智能准备度的关键要求。 

虽然公平性传统上是在数据背景下定义的,但对 WGS 的解释不仅依赖原始数据,还依赖于关于发育基因调控的信息和知识。例如:GTEx 最常用的产品不是项目产生的原始数据,而是关于组织特异性基因表达和定量性状基因座(xQTL)信息的衍生信息,这些信息将基因调控变异与基因表达联系起来。这要求将 FAIR 原则扩展到超越原始数据,而原始数据一直是公平性的核心。 

为了扩展 FAIR 原则的应用范围,在 Ackoff 的数据、信息与知识金字塔框架内,信息定义为通过分析方法从数据中推导出来的信息,而知识则由由一条或多条证据支持的一般断言组成。知识的例子包括关于变异致病性、组织特异性基因表达以及特定调控元件在特定细胞和解剖环境中的活性等断言。在此框架下(图1https://zenodo.org/records/17833070),将 FAIR 原则扩展至包括基因调控的信息与知识。首先,在 NIH 共同基金数据生态系统(CFDE)内,采用 CFDE RFC 流程制定了共识 RFC 文件。其次,通过开发调控元素注册表,并通过 CFDE 链接数据中心,将基因调控信息跨主要公共来源链接,实现了 RFC。第三,提供了典范用户界面,用于调控变异的发现和可视化,充分利用汇总信息。最后,通过识别与先天性心脏病主要亚型相关的新生基因调控变异,验证了汇总信息的实用性。 

image.png  

1 FAIR 基础设施用于监管变体解释和优先排序。AFAIR 框架支持对候选非编码变异的解释和优先排序。B ClinGen 等位基因注册库、基因组位置注册系统和 CFDE 链接数据中心链接,通过标准化标识符和 API 实现了调控数据、信息和知识的结构化集成。C)数据集可视化便于基于外部数据库对 reGLs 的评估 

参考文献

[1] Yu K, Zhao H, Wilderman A, Farris T, Arce J, Chen D, Jackson AR, Guo Y, Li Q, Jevtic B, Jevtic D, Milinovic V, Zhu Y, Costanza J, Wenger E, Nemarich C, Anderson L, Mihajlović A, Ardlie K, Morris SA, Roth M, Taylor DM, Resnick AC, Zhang L, Milosavljevic A. Aggregation of gene regulatory information and knowledge on FAIR principles enables discovery of pathogenic gene regulatory variants. Bioinformatics. 2026 Jan 20:btag013. doi: https://doi.org/10.1093/bioinformatics/btag013. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库

42. CircTarget:多种细胞类型circRNA调控综合数据库

43. GreenCells:植物lncRNA单细胞分析资源

44. RM2Target 2.0RNA修饰的写入者、擦除者和读取者靶基因数据库

45. SDMap:空间药物扰动图谱数据库

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1522303.html?mobile=1

收藏

下一篇
当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?