||
DeepCE:相关性增强基因调控网络推断的深度学习框架
单细胞技术的最新进展为同时测量数千个单个细胞的分子活动提供了强大的工具。单细胞研究的优势在于能够详细准确地表征细胞异质性。然而,大量高维和嘈杂的单细胞数据给数据分析和数学建模带来了重大挑战。单细胞数据的兴起推动了旨在重建动态细胞过程的计算和建模方法。
单细胞分析中的一个核心问题是发现调控基因调控网络(GRN)动态机制。GRN 推理方法通常分为两类:依赖最小假设的无模型方法,以及基于动态系统模型的机制方法。大多数无模型方法利用成对度量来推断基因之间的无向关系。这些无模型技术也被扩展到伪时间轨迹数据,其中因果推理方法用于估计定向调控相互作用。然而,仅依赖因果性往往会导致次优准确度。通过结合 RNA 速度和考虑基因表达中的时间滞后等改进措施,性能得到了提升。尽管如此,简单的基于相似性的度量仍然难以捕捉基因调控背后的复杂机制。
机理方法通常采用数学/统计模型来表示 GRN的详细动态。Lasso 和 Ridge 回归等正则化技术已被广泛用于推断稀疏网络结构。在缺乏时间序列数据的情况下,在变量时间与预测结果一致这一假设下,单细胞数据仍然可以加以利用。BEELINE等评估框架已被开发出来,用于评估各种 GRN 推理方法的准确性。另一项综合研究在 100 个模拟数据集上对 13 种推理技术进行了基准测试。最近,结合无模型和机理策略的集成方法显示出更强的鲁棒性和性能。
深度学习在生物学中的整合,需要开发适应性的数据转换框架,以协调生物系统的复杂性以及神经网络训练的要求。同时,也开发了专门用于 GRN推断的深度学习模型。例如,CNNC将基因表达数据编码为矩阵进行卷积特征提取,而 DeepFeature结合降维和类激活图来优化卷积神经网络(CNN)的训练。MTLRank将神经网络与多任务学习结合,预测 RNA流速,从而提高调控交互的准确性。类似地,DeepFGRN结合双向模块与相关性分析,识别基因调控关系并发现潜在的生物标志物。
为了进一步提升 GRN 推理的准确性,Wu等人提出了 DeepCE(图1,https://github.com/sxiaodai/DeepCE),一个专门为相关性增强 GRN 推理设计的深度学习框架。其创新点在于采用滑动窗口机制提取基因-基因关联,该机制结合转录因子(TF)信息和时间滞后分布,进行弱相关性过滤和强相关性增强。这一过程能有效减少噪声和虚假关联,为神经网络提供更可靠的输入。更重要的是,DeepCE 集成了双向门控循环单元(BiGRU)和 CNN,以捕捉时间和空间特征。这种混合架构使模型能够学习复杂的模式,准确预测调控关系,生成具有生物学意义的 GRN。

图1 DeepCE 框架。(A) 通过对其相关性最强的基因的表达向量取平均值来更新 TF i 和目标基因 j 的基因表示。(B) 提取 TF i 和目标基因 j 的基因片段之间的时间相关性,包括时间滞后关系,以构建时间延迟相关矩阵。(C) 使用两个背景分布调整基因片段之间的相关值:一个捕获 TF i 和目标基因 j 片段之间的相关性,另一个反映在相同时间延迟处对齐的基因片段的相关性。(D) 将得到的精炼相关矩阵输入到混合 BiGRU-CNN 模型中,以提取时间和空间特征,用于下游的调控预测
参考文献
[1] Qianqian Wu, Xingmiao Dai, Shiyi Lou, Siyuan Wu, Tianhai Tian, DeepCE: a deep learning framework for correlation-enhanced gene regulatory network inference in single-cell RNA sequencing data, Bioinformatics Advances, 2026;, vbag033, https://doi.org/10.1093/bioadv/vbag033
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-24 15:52
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社