张俊鹏
scContrast:基于对比学习的单细胞基因表达数据编码方法
2025-5-8 10:51
阅读:316

scContrast:基于对比学习的单细胞基因表达数据编码方法 

单细胞RNA测序(scRNA-seq)使研究人员能够在单个细胞水平上分析基因表达,从而深入了解细胞异质性、发育过程和疾病机制。典型的scRNA-seq分析首先对相似的细胞进行聚类,并确定每个聚类的关键标记基因,以绘制分化通路或揭示疾病机制。然而,由于scRNA-seq数据固有的高维度、稀疏性和批处理效应,基于完整基因表达谱对细胞进行聚类尤其具有挑战性。 

现有的用于聚类scRNA-seq数据的计算方法大致可分为三类。第一类包括无监督方法,通常涉及高度可变的基因选择,然后是主成分分析(PCA)等降维方法,以获得将相似细胞聚集在一起的低维细胞水平表示。虽然这种方法对单个数据集很有效,但这些方法很难整合来自多个批次的数据,因为它们无法考虑批次效应。为了解决这些挑战,第二类方法,包括监督方法,如scVI,需要批标签将类似的表示分配给类似的细胞。然而,每次新的集成都需要对这些监督方法进行重新训练,这使得它们在计算上昂贵,对于大规模数据集来说不切实际。最近,受ChatGPTLLAMASAM等大型基础模型的成功启发,研究人员开发了类似的scRNA-seq基础模型。这些基础模型是基于transformer的超大架构,在大规模数据集上训练,具有掩码语言建模(MLM)目标。虽然这些模型有望将任意的scRNA-seq数据投影到通用的嵌入空间中,但已经表明,这些模型很难有效地整合不同实验方案产生的数据。 

最近,Li等人引入了scContrast(图1),这是一种半监督对比学习方法,旨在将来自不同实验方案的scRNA-seq数据嵌入到通用的细胞水平表示空间中。scContrast利用了一组简单而有效的五个增强函数,模拟了scRNA-seq检测的技术伪影、协议偏差和批处理效应特征。这些增强功能指导scContrast提取单细胞基因表达谱的生物学意义特征。 

image.png

1 scContrast管道概述。首先,给定一批样本作为基因表达矩阵,生成两个增强视图。然后,视图由一系列完全连接的层进行编码。接下来,通过另一系列完全连接的层将编码投影到更高维度的空间中。最后,投影用于对比学习目标,该目标同时保持样本之间的方差,最小化增强视图之间的MSE,并最小化投影特征之间的协方差 

作者们在Tabula Muris数据集的25个组织样本中的21个样本上训练了scContrast,其中包括使用液滴和平板测序平台测序的多只供体小鼠的数据。为了模拟真正的零样本设置,在剩下的四个搁置组织上测试了scContrast。通过评估,作者们发现scContrast对看不见的组织样本具有很好的泛化能力,在整合不同测序方案的批次方面优于最先进的UCE模型。具体而言,scContrastkBETPCR批次融合指标上的得分分别为0.180.73,而UCE得分分别为0.020.39。因此,研究结果突出了scContrast卓越的零样本跨协议批量集成能力。然而,与UCE相比,scContrastKMeans ARIASW生物保守指标上的表现略差,这表明未来有改进的机会。 

参考文献

[1] Winston Li, Ghulam Murtaza, Ritambhara Singh. scContrast: A contrastive learning based approach for encoding single-cell gene expression data. bioRxiv 2025.04.07.647292; doi: https://doi.org/10.1101/2025.04.07.647292 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1484901.html?mobile=1

收藏

分享到:

下一篇
当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?