||
DiSC:个体水平单细胞数据的快速差异表达分析统计工具
单细胞RNA测序(scRNA-seq)已成为通过细胞水平基因表达分析阐明复杂生物学过程的关键方法。这种高分辨率方法为包括COVID-19、自闭症、阿尔茨海默氏病和癌症等各种疾病提供了新见解。它具有表征细胞异质性,鉴定稀有细胞群体,阐明细胞相互作用以及指出与特定细胞谱系相关的分子特征等方面发挥作用。多年来,随着scRNA-seq成本的迅速降低,它已应用于越来越多的个体和研究,导致队列规模和数据量的显著增长。
scRNA-seq中的一个基本研究问题围绕着了解特定细胞亚群中的基因表达与感兴趣变量(例如疾病状态)如何相关。用于识别这些“标签”基因或具有差异表达基因的统计程序通常称为差异表达分析。这些标签基因可以提供有关潜在生物学过程和疾病机制的见解,并可以作为疾病诊断、预后和治疗选择的潜在生物标志物。
在过去几年中,诸如SCDE、MAST、scDD、和ZINB-WAVE的许多差异表达分析方法已开发出来,以比较不同细胞组和识别细胞子集或条件特异性标签。这些方法中的大多数侧重于通过比较一个或几个生物学重复的细胞组之间的表达模式来识别细胞水平的差异特征。但是,随着测序成本的降低,scRNA-seq研究现在通常包括越来越多的生物学重复,允许识别个体级别的差异标签。然而,涉及多个个体的scRNA-seq研究引入了同一个体内细胞对细胞变异性的额外生物变异性,即个体对个体变异性。这种多层变异性使差异表达分析复杂化,并且大多数现有的差异表达方法可能不足以适应个体至个体的变异性。从不同受试者中汇总细胞并将细胞视为独立观察可以导致大量的假阳性。使用MAST和Muscat实现的混合效应建模的受试者内相关性也可能显示出I型错误的折衷,这可能是由于数据稀疏性引起的。因此,新颖的方法对于解决由多个个体scRNA-seq研究提出的独特挑战至关重要。
已经提出了几种在scRNA-seq研究中改善个体差异表达分析的方法。一种常见的方法将细胞级数据汇总到伪bulk样品中,如aggregateBioVar所见,或将edgeR、limma-voom、Deseq2应用于这些伪bulk数据。但是,伪bulk方法丢弃了重要的分布特征,从而限制了它们检测变化的能力。最近方法IDEAS和BSDE使用距离指标分析了基因表达的完整分布特征,但它们计算复杂度高,并且可能无法很好地扩展到大型数据集。当使用个人计算机而没有高性能计算资源时,IDEAS和BSDE通常需要一天以上的时间来分析差异表达基因。因此,仍然需要使用新方法以结合有效的假阳性对照、计算效率和跨不同设置的稳健性能。
最近,Zhang等人介绍了一种称为DiSC新方法(https://github.com/Lujun995/DiSC,https://cran.r-project.org/web/packages/SingleCellStat/index.html ),用于个体水平scRNA-seq数据的差异表达分析。DiSC直接从基因表达数据中提取分布特征,使用综合-F统计量共同测试这些特征,并通过基于置换的程序控制错误发现率(FDR)。由于简单性,DiSC在不损害FDR控制或统计能力的情况下比IDEAS要快两个以上的数量级。
参考文献
[1] Zhang L, Yang L, Ren Y, Zhang S, Guan W, Chen J. DiSC: a Statistical Tool for Fast Differential Expression Analysis of Individual-level Single-cell RNA-seq Data. Bioinformatics. 2025 May 30:btaf327. doi: 10.1093/bioinformatics/btaf327.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-6-24 02:46
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社