zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

SCA:基于信息降维恢复单细胞异质性

已有 664 次阅读 2024-2-10 10:17 |个人分类:科普|系统分类:科普集锦

SCA:基于信息降维恢复单细胞异质性

单细胞RNA测序(scRNA-seq)产生单个细胞的转录本计数,使生物组织的细粒度分析成为可能。单细胞数据集可以揭示在生物和病理现象中起关键作用的细胞群体和基因相互作用。识别和表征这种异质性是许多单细胞实验的关键动力。 

然而,单细胞数据的大小、高维和噪声使这项任务复杂化。现代实验对每个细胞数以万计的基因进行了分析,通常存在高丢失水平(mRNA分子采样不足)和技术噪声。降维,即将数据表示在具有丰富信号的低维空间中,已成为现代scRNA-seq分析管道的基石。例如,主成分分析(PCA)将数据投影到低维线性子空间,从而使投影数据的总方差最大化。相反,独立分量分析(ICA)旨在识别特征的非高斯组合。两者都在单细胞研究中被广泛使用。最近的一种方法scVI使用零膨胀负二项来模拟转录本计数分布,并执行变分推理,将每个单元非线性嵌入到低维参数空间中。基于图的降维方法,如PHATE和扩散图,使用k-近邻网络上的扩散计算细胞之间的成对相似性,并创建保留这些相似性的嵌入。 

虽然这些方法是有效的,但由于两个原因,它们往往不能捕获复杂组织的完整细胞多样性。首先,根据定义,稀有细胞类型只占观测值的一小部分,因此对数据集的整体结构贡献很小。其次,细胞种群之间的许多区别仅取决于所测量的数千个基因中的几个,这样的群体称为微妙定义subtly defined)的。例如,γ-δ T细胞以其抗原识别能力而闻名,其与普通细胞毒性T细胞的区别在于仅存在少量γδ T受体。然而PCAICA都计算了优化整个数据的目标函数的特征——总方差和非高斯性——罕见细胞群体阻碍了这两种策略,因为定义它们的基因可能在大部分数据中是嘈杂的或未表达的。同样,scVI使用证据下界(ELBO)损失函数来评估和改进其潜在编码。由于ELBO考虑了每个记录的转录本,罕见和微妙定义的细胞类型可能不会对其产生太大影响,从而导致代表性不足。其他非线性方法,如UMAPt-SNE,依赖于k-最近邻图。然而,构造精确的k近邻图需要精确的细胞-细胞相似性概念。基于网络的方法也是如此,如PHATE和扩散图,它们使用k-最近邻图上的扩散来构建降维。真实的细胞群体可能既罕见又微妙,因此这些挑战是实现scRNA-seq全部潜力的重大障碍。 

在这里,DeMeo等人引入SCA (surprisal component analysis),这是一种信息论的降维方法,可以识别单细胞转录数据中的统计信息信号,从而更深入地了解复杂组织 (1a)SCA利用了惊喜的概念,即不太可能发生的事件在发生时更具信息量,为每个细胞中的每个转录本分配一个惊喜分数。通过识别捕获这种令人惊讶的变化的一组轴,SCA支持降维,从而更好地保存来自稀有和微妙定义的细胞类型的信息,在现有方法无法发现的地方发现它们。 

image.png

1 a SCA关键概念进步的说明。纵轴将小细胞群()与大细胞群()分开。两个水平轴的方差较大,但不能区分两个种群。主要主成分与高方差水平轴对齐,不能分离总体。领先的令人惊讶的组件与更多信息的垂直轴对齐,允许下游分离。b从基因表达数据构建惊喜分数。对于每个细胞,使用Wilcoxon秩和检验比较基因在细胞局部邻域的表达与基因的全局表达。得到的p值是负对数变换,以给出观察到的过表达或过表达的惊讶度,并给出过表达的正号和过表达的负号。c通过Smart-seq 3分析的3000PBMCITGAL基因的惊人得分。当基因在局部富集时得分为正,当它代表噪音时得分接近零,当它明显不存在时得分为负。d意外成分的构造。对所有基因进行奇异值分解(SVD),得到捕获数据中信息轴的D加载向量。然后,将输入转录本计数矩阵线性投影到这些轴上,为下游分析生成每个细胞的D维表示 

为了演示SCA的实用性,在真实和模拟的数据上运行SCA,这些数据具有罕见的和微妙定义的细胞种群,并评估了在下游恢复这些种群的能力。为了进行比较,还测试了PCAICAscVI、扩散图、PHATE和六种罕见的细胞类型发现工具:RaceIDGiniClustCellSIUSFiREgeossketchHopper。发现SCA能够检测小群体,如γ - δ T细胞和粘膜相关不变性T (MAIT)细胞,这些细胞对现有的管道是不可见的,但对肿瘤免疫学研究至关重要。同时,SCA还原可以更好地捕获更常见细胞类型之间的更大规模差异,从而无需重新聚类即可进行多分辨率分析。除了稀有细胞类型恢复之外,SCA更准确地恢复了基因-基因关系,并将其作为MAGIC填充的基础。 

SCA非常高效,除了转录本计数外不需要任何信息,并且可以推广到由离散细胞类型或连续轨迹组成的数据。输出的成分与原始转录本有明确的线性关系,便于直接的生物验证和解释。SCA的信息理论方法在数学上是合理的,并且在经验上对任何高维数据模式(生物或其他)的信号提取都是有用的方法。 

SCA使用Python编写,参见https://github.com/bendemeo/shannonca 

参考文献

[1]DeMeo B, Berger B. SCA: recovering single-cell heterogeneity through information-based dimensionality reduction. Genome Biol. 2023 Aug 25;24(1):195. doi: 10.1186/s13059-023-02998-7. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

 

image.png



https://wap.sciencenet.cn/blog-571917-1421295.html

上一篇:GEARS:预测多基因扰动的转录结果
下一篇:DeepRIG:用图形自编码器模型从单细胞转录组推断基因调控网络
收藏 IP: 39.128.54.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-29 16:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部