张俊鹏
scMINER:单细胞数据聚类与暗驱动子推断互信息框架
2025-6-27 09:27
阅读:292

scMINER:单细胞数据聚类与暗驱动子推断互信息框架 

细胞身份是由转录因子(TF)和信号蛋白(SIG)的连接和重新布线确定和调控的。确定这些网络的驱动因素对于理解细胞可塑性和动力学以及确定疾病的治疗靶标至关重要。下游靶基因的预测,也称为基因网络推断,目前是识别这些驱动因素的主要障碍。单细胞RNA测序(scRNA-seq)技术使得以前所未有的分辨率识别细胞类型和状态,从而从bulk转录组数据中提供了有关细胞异质性的信息,其中bulk样本中单个细胞的信号丢失了。从scRNA-seq数据中推断出十几个用于推断基因调控网络的算法已经开发了。但是,这些方法的总体性能,尤其是准确性,远地狱理想。在细胞类型的网络重新布线和驱动子识别中,一些主要的挑战持续存在。 

第一个挑战是准确分组细胞群以达到高纯度和同质性。已有大部分单细胞数据聚类算法依赖于线性降维方法,导致的结果是这些方法可能无法捕获非线性细胞- 细胞依赖性。例如,最受欢迎的工具之一Seurat使用主成分分析(PCA)对数据降维,这在数学上是正交线性变换。现有聚类工具中的另一个缺点是它们选择性地使用高度可变基因而不是所有基因进行聚类分析。尽管此策略可以提高处理速度,但高变量特征的选择是生物学上任意的,可能会导致进一步的信息丢失。这些方法在检测稀有簇或区分相似细胞状态的能力上是有限的,进而使网络推断复杂化。 

第二个挑战是准确地从scRNA-seq数据中估算基因-基因的依赖性,该数据本质上是随机且稀疏的。网络推理的大多数现有方法使用线性回归指标(例如Pearson相关系数)测量基因的相似性,这些指标假定线性、同义和独立,然而独立和正态分布在单细胞转录组数据中并不常见。网络推理的某些方法将scRNA-seq数据与来自其他模式的数据集成在一起,以提高其预测的准确性。例如,常用方法SCENIC使用TF结合基序数据库和共表达分析来重建TF靶标调控网络,并推断TF活性以进行后续的聚类分析。LINGER是一种最近开发的方法,该方法将单细胞多组数据与atlas尺度的Bulk数据结合在一起,也达到了网络推断的精度。TF主调控子的识别具有较长的历史,并且已经提出了许多方法,例如共表达和矩阵分解。这些方法使用全基因组表达数据,并通过下游靶基因的表达来推断转录因子的活性。例如,SCENIC通过计算靶基因的富集来对TF活性打分。然而,GRN(基因调控网络)推断的准确性仍然很低,略高于随机预测模型。 

最后,尽管已经开发了用于从scRNA-seq数据中推断TF调控网络和驱动子的工具,但没有信号网络和驱动子的可比方法。这部分是由于以下事实:许多信号驱动子在mRNA或蛋白质水平上没有差异表达。相反,它们是通过翻译后修饰(例如激酶)和其他机制而改变,导致它们被称为暗驱动子。由于信号网络不容易从基因表达谱中推断出来,因此很少开发出从bulk样本中推断信号网络的工具,也没有从单细胞转录组学数据中推断细胞类型特异性信号网络。信号网络已被认为具有与分化和细胞状态过渡相关的新兴特性。另外,信号蛋白的可毒性性质使它们成为治疗干预措施的吸引力攻击靶标。因此,从单细胞数据中推断细胞类型特异性信号网络的工具的可用性是一个很大的未满足需求。 

为了应对这些挑战,Pan等人开发了基于互信息的单细胞数据聚类和暗驱动子方法(scMINER,图1https://github.com/jyyulab/scMINER),用于无监督的细胞聚类、TFSIG网络推断,以及来自单细胞转录组学数据的暗驱动子识别。scMINER在细胞聚类中表现出卓越的精度,优于五种最先进的算法,并且在区分紧密相关的细胞群体方面表现出色。对于网络推断,scMINER优于ATAC-seqCROP-seq验证的三种已建立方法。特别是,它超过了揭示与T细胞耗尽和Treg组织规范有关的关键转录因子驱动因素的图谱。此外,scMINER可以高精度的推断信号传导蛋白网络和驱动子,这在多模式单细胞数据分析中具有优势。此外,所建立的 scMINER门户是一种交互式可视化工具,可促进探索scMINER结果。 

image.png

1 scMINER工作流程。scMINER是一种基于互信息的系统生物学框架,旨在综合端到端scRNA-seq数据分析。工作流程包括数据质量控制和过滤,基于MI的精确细胞聚类,细胞类型特异性TFSIG网络推断,基于基因活性的暗驱动子识别以及数据可视化和共享 

参考文献

[1] Pan Q, Ding L, Hladyshau S, Yao X, Zhou J, Yan L, Dhungana Y, Shi H, Qian C, Dong X, Burdyshaw C, Veloso JP, Khatamian A, Xie Z, Risch I, Yang X, Yang J, Huang X, Fang J, Jain A, Jain A, Rusch M, Brewer M, Peng J, Yan KK, Chi H, Yu J. scMINER: a mutual information-based framework for clustering and hidden driver inference from single-cell transcriptomics data. Nat Commun. 2025 May 8;16(1):4305. doi: 10.1038/s41467-025-59620-6. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1491380.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?