zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

devil:从数百万个细胞中快速和准确识别差异表达基因

已有 716 次阅读 2025-8-20 13:18 |个人分类:科普|系统分类:科普集锦

devil:从数百万个细胞中快速和准确识别差异表达基因 

1990 年代末 DNA 微阵列出现以来,差异基因表达分析在发现条件特异性转录程序中发挥了核心作用。经典方法基于线性模型和参数的统计测试,假设生物学重复实验中的表达测量在统计上是独立的。这些假设在早期的批量 RNA 测序研究中成立,其中每个样本对应于一个独立的个体或实验单元,以及差异表达(DE)检测领域。多年来,这一领域蓬勃发展。如今,DeSeq2edgeR limma 等特定工具几乎被广泛应用于每个进行批量 RNA 测序的文章。 

然而,随着单细胞 RNA 测序(scRNA-seq)的日益广泛使用,这些基本假设

受到了质疑。在单细胞实验中,我们从单个生物学重复中的单个细胞获得数万个基因表达测量值。然而,这些细胞并不是独立的观测值。它们共享一个谱系,暴露于相同的微环境,并且常常存在依赖于技术因素产生的伪影测序技术。将细胞视为独立重复样本可能会高估统计显著性(I 类错误)。在单细胞差异表达研究中,这是一个特别在多样本设计中突出的问题,其中生物学重复的主要来源是受试者水平(图 1A)。因此,该领域需要考虑这种层次结构并开发统计上稳健的单细胞差异表达工具(图 1B),以区分患者内(即细胞间异质性)与患者间差异。这至关重要,因为后者在计算p 值和 log 倍数变化(LFC)统计时,会混淆群体水平的推断(图 1C)。

 image.png 

1 使用 devil 进行多患者单细胞差异表达(scDE)测试。A. devil 基于三个主要矩阵运行:𝐩,表示每个细胞的患者分配;𝐗,编码实验设计和协变量;以及𝐘,包含原始基因表达计数。基因水平变异通过表达值直方图和代表性火山图说明,火山图展示 log 倍数变化与 p 值,突出 scDE 模式。B. 患者间表达异质性挑战 scDE 测试。UMAP 投影展示了单患者数据集和多患者数据集之间的对比。单个患者嵌入主要反映内在生物学结构(例如,细胞类型),而多个患者数据引入了由患者特异性因素驱动的额外变异,强调了需要能够分离技术性和生物学变异来源的模型。C. devil 背后的概率模型基于 Gamma-Poisson 框架,该框架捕获基因特异性过度分散和群体水平效应。 核心参数包括基因回归系数(𝜷)和离散度项(𝜃),这些参数通过 GPU 加速的变分推理进行估计。这种结构允许可扩展的推理,同时考虑患者水平变异性和稀疏计数数据。D. devil 集成的 scDE 分析工作流程结合了变分推理,以高效估计𝜷,并采用稳健协方差建模,支持高通量 scDE 表达分析,即使在多患者 scRNA-seq 数据集中也能控制假阳性 

许多不同的策略已被采用来应对这一挑战,借鉴批次效应消除和基于模型的 scDE,各有其独特的优势和局限性。批次整合方法(例如 ComBat Harmony)将患者身份视为需要协调的技术批次效应。这些方法常常难以保留具有生物学意义的患者间差异。相反,基于模型的 scDE 方法明确地划分方差来源,构建伪批量、广义或混合模型,可同时考虑患者内和患者间的差异。伪批量聚合策略将每个患者的计数合并,然后应用已为批量 RNA 测序建立的工具(例如limma DESeq2)。虽然这种方法是最快的,但它掩盖了细胞间的差异,可能遗漏微妙但具有生物学意义的差异信号。这个问题通过广义线性模型(GLM)得到解决。 但是,这需要将患者作为固定效应纳入。在包含许多患者的数据集中,然而,当患者身份与实验条件相关时,这可能导致共线性,从而导致病态优化问题,无法通过数学方法解决。最后,混合模型(例如 NEBULA)拟合一个将患者作为随机效应的广义线性模型。这种方法展示了更好的假阳性控制,比基线线性模型更有优势。然而,它引入了特定于患者的参数(线性增加),这限制了这种方法只能可扩展性到少数患者。因此,在这些模型上扩展仍然存在重大挑战从针对单个患者的研究扩展到可以包含数千名患者和测量数据的大规模研究,几乎实现了规模扩展超越数百万个数据点。 

最近,Santacatterina等人首次提出一个可扩展且统计上可靠的 scDE 测试框架devil(图1https://github.com/caravagnalab/devil),该框架解决了scDE 问题陈述。他们的模型涉及一个贝叶斯 Gamma-Poisson 结构,类似于 glmGamPoi,以捕获基因和细胞层面的变异。此外,模型利用了集群夹心估计器。为了捕捉跨患者的依赖关系,调整数据中未知的潜在相关性。在实践中,与混合模型不同,该方法是一种不受共线性影响且不增加参数数量的广义线性模型。与竞争性方法相比,作者们方法在多种实验设计上表现出泛化能力,同时扩展到超过 10 万个细胞和数千个基因。这同样是通过一个专为现代多 GPU 架构设计的并行差分推理算法实现的。该模型为 scDE 分析开辟道路,最终能够整合大型临床队列、图谱项目和药物反应筛选中的 scRNA-seq 数据集。 

参考文献

[1] Giovanni Santacatterina, Niccolo Tosato, Salvatore Milite, Katsiaryna Davydzenka, Edoardo Insaghi, Stefano Cozzini, Guido Sanguinetti, Leonardo Egidi, Giulio Caravagna. Scalable, fast and accurate differential gene expression testing from millions of cells of multiple patients, bioRxiv 2025.07.24.666556; doi: https://doi.org/10.1101/2025.07.24.666556 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 



https://wap.sciencenet.cn/blog-571917-1498444.html

上一篇:SimSpace:空间组学数据模拟计算框架
下一篇:PPMS:从单细胞数据中推断pri-miRNA表达谱框架
收藏 IP: 39.128.48.*| 热度|

1 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-8-23 04:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部