||
COFFEE:一致性单细胞类型特异性基因调控网络推断
生物系统的研究正在以几种不同的方式进行。分析染色质、转录因子和基因之间关系的一种流行方法是将它们表示为一个称为基因调控网络(GRN)的复杂网络。GRN对于理解细胞身份如何在疾病中建立和破坏至关重要。分析GRN的流行抽象是用图的形式,其中任意两个基因之间的关系是通过边缘分数来量化的。GRN推断的目的是为了更好地理解连接转录因子和信号蛋白与靶基因的基因表达模式。已经开发了几种算法来从大量RNA测序数据中推断GRN。然而,单细胞转录数据提供了观察细胞类型特异性基因表达模式的机会,并有可能进一步了解细胞的调控。存在于scRNA-seq数据集中的噪声使得很难确定结果是否具有生物学意义。因此,通过通路富集和文献综述来验证构建的GRN至关重要。
从大量RNA测序数据推断GRN的算法已经适用于单细胞转录组数据,取得了不同程度的成功。社区可用的算法在体系结构和方法上各不相同。有些是基于相关性的方法,如LEAP和PPCOR。最近的算法依靠线性回归和非线性常微分方程来进行GRN预测。此外,有些算法需要输入时间点表达式数据,而有些则不需要。通常情况下,scRNA-seq实验并没有收集到这些信息,因此一种普遍接受的做法是使用Slingshot等方法生成伪时间点数据。用于此目的的算法数量的增加成为研究人员无法克服的任务。科学家应该如何从单细胞转录组学数据中选择构建GRN的最佳算法?就像scRNA-seq数据一样,Pratapa等人试图通过为12种突出的GRN推理算法创建评估框架来解决这个问题。基于这些算法在合成、整理和实验单细胞转录组数据集上的表现,作者能够推荐算法PIDC、GENIE3和GRNBoost2是寻求使用GRN推理算法的研究人员的选择方法。使用早期精确比(EPR)评分来衡量这些算法的鲁棒性。EPR是网络的早期精确比,它本质上是衡量网络中真正交互的数量。构建GRN的另一种方法不是根据评估标准选择算法,而是利用群体理论的智慧,利用所有现有算法的信息。
群体智慧理论指出,一个社区的集体知识大于任何个人的知识。该理论在许多领域都有广泛的实际应用,它在GRN推理中的实现并不是一个新概念。DREAM5 Consortium等人在2012年的一项研究中对大量RNA测序数据使用了一致性网络方法。这种一致性方法使用了博尔达计数法,这是约翰·查尔斯·德·博尔达在1770年发明的一种排序选择投票算法。该系统的工作方式是根据人群的选择对候选人进行排名,并相应地分配分数(排名第一的候选人获得最高分,依此类推)。平均分最高的候选人赢得选举。在此平台上,已有方法实现了Borda计数系统的规范化版本,以生成一种一致性网络方法,应用于miRNA-miRNA网络的推理。目前的研究旨在通过使其对单细胞转录组学数据的GRN推断更具特异性来改进这种实现。
GRN推理的一致性方法已经证明了微阵列和大量RNA-seq数据的性能改进。Musaddiq等人进行这项研究的动机是双重的:想测试类似的群体智慧方法是否对scRNA-seq数据有效。scRNA-seq数据的GRN推断提出了一组独特的挑战。伪时间数据中存在的噪声,以及基因/细胞缺失,需要更敏感的算法来预测高质量的相互作用。由于几种GRN推理算法的性能都不是最优的,整合它们来提高性能可能并不一定像对批量RNA测序数据的推理那样直观。此外,随着更高质量的scRNA-seq和scATAC-seq数据的出现,通过单个细胞类型推断GRN已成为一项重要任务。确定每种细胞类型的个体调节相互作用可以识别新的细胞类型和疾病进展机制。作者们试图确定基于一致性的方法是否可以在特定细胞类型的GRN推断中获得更高的性能。为此,作者们提出了COFFEE(Consensus Single Cell-Type Specific Inference),这是一种针对细胞类型特异性和一般scRNA-seq数据的一致性算法。由于一致性方法适用于每个算法预测的单个网络,因此它可以很容易地集成利用scRNA-seq数据甚至多组学数据集(例如scRNA-seq和scA TAC-seq数据)的算法。
COFFEE方法基于博尔达计数法(Borda selection)融合多个算法生成的多个网络进行融合推断,结果再次凸显了群体智慧理论在单细胞GRN推断的有效性。详细比较结果见参考文献[1]。
参考文献
[1] Musaddiq K Lodi, Anna Chernikov, Preetam Ghosh. COFFEE: Consensus Single Cell-Type Specific Inference for Gene Regulatory Networks. bioRxiv 2024.01.05.574445; doi: https://doi.org/10.1101/2024.01.05.574445
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-29 18:41
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社