||
DNFE:使用有向网络流熵识别生物过程临界点
许多复杂系统都会经历一个关键的转变,从一种状态突然切换到另一种截然不同的状态。这就是所谓的临界点,在这个临界点上可能会发生剧烈的、不可逆转的质转变。单细胞转录测序彻底改变了细胞异质性和功能多样性的研究,使个体细胞内的基因表达测量成为可能,并允许基于轨迹拓扑和基因调控分析推断细胞群体。在许多生物过程中,如细胞分化过程或胚胎发育,都有一个临界点,在此之后,细胞群体会发生剧烈的转变或变化。在生物系统的关键转变之前,确定这样的临界点对于深入了解疾病进展或胚胎发育的潜在机制至关重要。然而,由于在表型和平均基因表达方面,过渡前和关键状态之间的相似性,传统的生物标志物往往无法检测到关键状态。
为了在生物系统转变前的临界状态发出信号,提出了一个被称为动态网络生物标志物(dynamic network biomarker,DNB)的理论概念。DNB由一组分子组成,如基因或蛋白质,这些分子彼此之间密切相关,即一种称为“临界集体波动”的现象。基于DNB理论,许多方法已经被开发出来,并成功应用于检测复杂疾病和生物过程的关键状态,如流感、乳腺癌、膀胱尿路上皮癌和细胞分化。然而,由于转录物扩增噪声和缺失事件的严重干扰,在scRNA-seq数据分析中的应用受到限制。此外,这些计算方法大多只是基于无向网络识别分子/基因之间的相关性,而有向网络可以反映基因之间的相互作用,挖掘细胞群体中潜在的动态信息,揭示分子效应的基本机制,为进一步的精准治疗提供定量研究。有向网络还可以明确地表示基因之间的定向关系,这对于描述因果关系、更好地理解基因之间的调控关系以及识别重要的调控因子和通路至关重要。因此,开发一种有效的、鲁棒的方法来检测基于有向网络的临界点是势在必行的,特别是对于复杂生物过程的单细胞数据。
为了解决这些问题,Peng等人提出了一种新的基于有向网络的计算方法,称为有向网络流熵(DNFE,图1,https://github.com/pxqluck/DNFE),用于预测bulk和单细胞数据的临界状态。与传统方法不同的是,DNFE将重点放在直接连接到核心基因的一级邻居上,以及与任何一级邻居直接交互的二级邻居上。具体来说,首先在给定的时间点构建了一个基于WGCNA网络的有向网络,该网络通过一个方向确定指标重新布线。然后根据各有向网络的信息计算各有向网络的局部DNFE。与传统的信息熵不同,DNFE充分利用了局部(核心基因)网络连通性信息,而不是基因表达的波动,从而可靠地量化了网络波动。最后,使用DNFE评分来表征由特定样本对参考样本/细胞造成的分子集体波动或网络波动,量化生物过程的临界,即临界集体波动。
所提出的DNFE方法是检测复杂生物过程中临界状态的有效工具,具有以下优点:(i) DNFE方法可靠地量化临界网络波动,通过探索组学数据的动态和高维信息来降低噪声,从而增强了方法的鲁棒性。此外,DNFE关注的是二阶邻居,它更好地描述了网络的结构,从而提高了方法的有效性。数值模拟结果表明,该算法具有鲁棒性、有效性和处理bulk数据或大规模数据集的适用性。(ii)与大多数传统方法不同的是,DNFE方法是基于有向网络提出的,它可以更好地理解基因之间的调控关系,识别重要的调控因子和通路,探索基因调控网络的结构和功能。(iii) DNFE方法可以在状态转变之前检测临界状态,并识别具有临界集体波动和非差异“暗基因”的有效DNB成员,这可能被用作复杂疾病和生物过程的预后生物标志物。(iv) DNFE方法可应用于bulk和单细胞RNA-seq数据。该方法还可以识别转录因子(TF),这些转录因子是定义细胞身份和驱动细胞命运转变的关键参与者。其中一个已确定的TF是ZNF888,它被认为在早期细胞分化中具有很大的潜力。
图1 DNFE算法原理图。(A)给定一组对照细胞/样本和一组衍生病例细胞/样本,基于重布线加权基因共表达网络分析,以方向确定指标构建特异性有向网络。(B)计算全局DNFE,用于检测复杂生物过程临界状态的预警信号。 (C)在生物过程的动态进展过程中,系统处于正常状态时,DNFE分数保持在低位,而当系统接近临界状态时,DNFE分数显著升高。这种DNFE的突然增加表明是生物过程的临界点
为了证明DNFE的鲁棒性和有效性,作者们基于模拟基因调控网络在不同噪声强度下产生的基因表达数据进行了数值模拟。随着噪声强度的增加,与现有方法相比,DNFE对即将到来的临界点的预警信号检测效果更好。此外,在1000个节点的网络上进行的数值模拟,明确地显示了该算法的鲁棒性和适用于处理bulk数据或大规模数据集。将DNFE方法应用于来自癌症基因组图谱(TCGA)数据库的两个bulk测序肿瘤数据集,包括肾乳头状细胞癌(KIRP)和膀胱癌(BLCA),成功检测出关键状态或临界点的预警信号。此外,在胚胎发育的三个单细胞数据集中成功地检测到细胞命运承诺,包括人胚胎干细胞向最终内胚层细胞的分化,小鼠胚胎干细胞(mESC)向中胚层祖细胞(MP)的分化,以及小鼠胚胎成纤维细胞(MEF)向神经元的分化。DNFE根据DEC数据确定了分化过程中的两个临界点,即第一个临界点在12h,第二个临界点在36h,这两个临界点对应于hESC124 (ES)到ME和ME到DE两个不同的分化过程。
识别生物过程中的关键状态,如肿瘤疾病的前恶化阶段和胚胎发育过程中的细胞命运具有重要意义。关键状态到疾病状态的早期预警信号可以为预防或准备灾难性恶化提供最佳时机。然而,生物系统动力学的表征和从数据集中准确检测临界点或临界状态是具有挑战性的,因为在表型和平均基因表达方面,过渡前状态和临界状态之间存在相似性。在这项研究中,作者们提出了一种基于有向网络的新方法来检测生物过程的早期预警信号,这与依赖差异表达信息的传统方法有所不同。研究结果表明,DNFE方法可以成功地检测5个真实数据集的临界点,并揭示疾病进展过程中潜在的分子机制。这种方法也增强了我们对基因间调控关系的理解。来自三个胚胎分化数据集和两个癌症数据集的“暗基因”在关键的生物学过程或通路中发挥重要作用。TF是理解细胞功能、发育生物学和疾病机制的关键。在这项研究中,通过使用基于网络的工具识别“暗基因”来预测TF。然而,这种方法可能不完全准确,需要进一步的实验验证。此外,与现有方法相比,数值模拟证明了DNFE方法的有效性和鲁棒性,以及对处理bulk量数据或大规模数据集的适用性。
总之,DNFE能够检测到bulk和单细胞数据的临界点,并识别出相应的DNB。DNFE方法在探索疾病进展的潜在分子机制、发现新的网络生物标志物和“暗基因”方面也显示出有希望的应用潜力。
参考文献
[1] Xueqing Peng, Peiluan Li, Chen Luonan. DNFE: Directed-network flow entropy for detecting the tipping points during biological processes. bioRxiv 2024.09.18.613673; doi: https://doi.org/10.1101/2024.09.18.613673
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 09:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社