||
因果调控变异深度学习模型比较分析
全基因组关联研究(GWAS)表明,约95%的疾病相关遗传变异发生在人类基因组的非编码区,其中致病变异通常影响调控基因表达的调控元件。这些调控变异可以深刻影响表型,变异通过失调其靶基因来改变疾病易感性。
深度学习已经成为一种变革性的方法,用于预测遗传变异的调控作用,特别是在增强子区域内。这些模型利用大规模的基因组和表观基因组数据集来学习复杂的序列-功能关系,识别影响调控活性的DNA序列特征。例如,卷积神经网络(CNN)已被成功应用于检测破坏转录因子结合位点或改变染色质可及性的变体,为其潜在的表型后果提供了机制上的见解。著名的基于CNN的模型包括DeepSEA、SEI和TREDNet。最近,基于transformer的架构在捕获长期依赖性和模拟细胞类型特异性调控效应方面表现出了强大的性能。这些模型,如DNABERT系列、核苷酸transformer家族和Enformer,使用自我监督目标在大规模基因组序列上进行了预训练,随后针对特定任务进行了微调,包括预测DNA甲基化模式、增强子活性和疾病相关变异的功能影响。通过整合更广泛的基因组区域的上下文信息,transformer模型提供了增强的分辨率,用于以细胞类型感知的方式解释非编码变异。选择最合适的模型来检测遗传变异的调控作用仍然是一个重大挑战,尽管有几项调查详细概述了该领域的深度学习生态系统。这些调查突出了各种模型的独特优势和局限性。然而,它们缺乏一个统一的评估框架。具体而言,现有的审查往往无法在标准化数据集上对模型进行基准测试,在一致的条件下对其进行训练或微调,并使用统一的标准评估其性能。此外,调控区域的基准测试模型与调控变异之间存在根本差异,这一点很少得到解决。虽然调控区域分析侧重于识别更广泛的功能要素,但调控变异评估需要评估这些区域内特定序列改变的影响,这为模型评估带来了不同的挑战和机遇。
最近,Manzo等人评估了最先进的深度学习模型,以预测遗传变异对人类基因组增强子活性的影响。方法涉及整合来自不同实验方法的9个数据集,包括大规模平行报告分析(MPRA)、报告分析数量性状位点(raQTL)和表达数量性状基因座(eQTL)研究。这些数据集涵盖了四种人类细胞系增强子区域的54859个单核苷酸多态性(SNP)。
作者们处理了三项任务:预测增强子活性的log2倍数变化,根据其调控影响对SNP进行分类,以及在连锁不平衡(LD)块中确定因果SNP。还评估了数据可变性如何影响模型性能,强调了数据质量的重要性。最后,说明了如何有效地利用增强子检测模型进行变异效应评估,强调了它们在解释基因组数据和优先考虑候选调控变异方面的实用性。
为了确保稳健和彻底的评估,作者们为每个细胞系微调了22个深度学习模型,系统地探索了广泛的架构设计和参数配置。结果表明,CNN模型在致病性调控变异检测方面优于“高级”架构(图1),如transformer。然而,微调显著提高了基于transformer架构的性能,揭示了它们在优化条件下超越CNN的潜力。相关代码和数据见https://github.com/tanoManzo/AI4Genomic,微调模型见https://huggingface.co/tanoManzo。
图1 模型预测与人类基因组增强子变异效应的实验log2倍差异之间的Pearson相关系数。条形图颜色表示模型架构(CNN:绿色,Transformer:蓝色,Hybrid:橙色)。所有相关性的p值均小于0.05,误差条显示方差
参考文献
[1]Gaetano Manzo, Kathryn Borkowski, Ivan Ovcharenko. Comparative Analysis of Deep Learning Models for Predicting Causative Regulatory Variants. bioRxiv 2025.05.19.654920; doi: https://doi.org/10.1101/2025.05.19.654920.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-7-12 02:22
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社