科学网-scHSC：通过样本对比学习增强单细胞数据聚类-张俊鹏的博文

scHSC：通过样本对比学习增强单细胞数据聚类

2025-10-31 17:21

阅读：2100

scHSC：通过样本对比学习增强单细胞数据聚类

单细胞RNA测序（scRNA-seq）技术使研究人员能够以单细胞分辨率测量基因表达水平，这对于表征细胞类型、研究发育生物学、揭示复杂疾病和推断细胞轨迹至关重要。如今，准确识别细胞类型已成为 scRNA-seq 分析的关键步骤。聚类已被证明是细胞类型注释最有效的方法之一，因为它以无偏方式识别细胞类型。在早期研究中，K-means、层次聚类和基于密度的聚类等传统聚类方法已被应用于解决聚类问题。

然而，由于 scRNA-seq 数据的固有特性，聚类分析仍然是一项极具挑战性的任务。这些数据的特点是细胞群体间具有高度异质性，并且存在极端稀疏性，其中大量零元素是由技术限制和生物因素造成的。

因此，开发高效的计算方法以充分发挥 scRNA-seq 数据的潜力是迫切需要的。为了解决这些局限性，研究人员已经开发了多种用于scRNA-seq数据的聚类方法。例如，CIDR是一种基于 PCA 的快速算法，利用差异矩阵进行插补和聚类。SC3提出了一种专门针对单细胞 RNA 测序数据的共识聚类框架，该框架采用 PCA 和拉普拉斯变换来降低基因的维度。SIMLR使用多核学习来寻找更鲁棒的距离度量，旨在解决普遍存在的 dropout 事件。然而，这些计算方法往往在scRNA-seq数据上只能提供局部最优结果，因为它们未能考虑由基因表达水平引起的极端稀疏性。此外，它们大多数依赖于构建完整的拉普拉斯矩阵，这会带来巨大的计算和存储成本。尽管问题仍然具有挑战性，但最近的研究通过图学习、多模态集成和深度聚类推进了解决方案。

近年来，深度嵌入聚类方法已成功发展，用于建模高维稀疏的scRNA-seq数据，如 DESC、scDeepcluster、scDCC和 scziDesk。这些方法通过学习高度可靠的分配，迭代地优化聚类结果，使用辅助目标分布，实现了改进的聚类结果。与此同时，其他深度学习模型如DCA专注于通过降噪原始表达数据来学习鲁棒的表征，这有助于下游任务包括聚类和可视化。更新的方法如scMAE引入了用于聚类的掩码自编码框架，其中一部分输入基因表达值被随机掩码，然后由模型进行重建。

然而，这些深度嵌入聚类方法往往忽略了结构信息传播和节点关系。最近，新兴的图神经网络通过邻居信息传播自然地捕捉图结构信息的能力得到了证明，scTAG、scMGCA和 scGAE在单细胞分析中展示了这一点。图嵌入聚类通常结合深度自动编码器和图聚类算法来学习紧凑的潜在表示，从而能够探索丰富的内容和结构信息。然而，这些方法由于全图构建、噪声数据中的过度平滑以及对在训练过程中不适应的静态邻域图的依赖，导致可扩展性差，限制了它们在大型或复杂数据集上的性能。

此外，对比学习也已在scRNA-seq的聚类问题中取得成功应用，例如scDCCA、graphSCC、scDSC和 contrastive-sc。尽管这些方法取得了有前景的聚类结果，但它们在深度度量学习中并未考虑正例和负例样本，这限制了聚类性能的提升。HSAN在图聚类中提出了一种调整正例和负例样本权重的策略，但它仅适用于简单的图数据，无法应用于复杂的scRNA-seq数据。

单细胞RNA测序数据由于其高稀疏性、技术噪声和细胞类型异质性，在聚类方面面临重大挑战。尽管最近深度学习方法取得了进展，但许多方法仍存在过度平滑、可扩展性差或静态邻域假设等问题，这些限制了训练过程中的适应性。为解决这些局限性，Fang等人提出了scHSC（图1，https://github.com/fangs25/scHSC），一个针对scRNA-seq数据设计的 Hard-Sample 感知对比聚类框架。scHSC采用基于采样的训练策略，并利用高置信度伪标签动态优化邻域结构，从而在聚类性能上提升了可扩展性和鲁棒性。scHSC方法联合整合了基因表达谱和图拓扑结构，并在训练过程中动态强调正例和负例对，以优化嵌入空间。scHSC的设计通过聚焦于正例和负例样本，直接解决了单细胞数据中的稀疏性和异质性挑战。在稀疏数据集中，真正相似的细胞可能由于丢失（形成正例）而显得不相似，而异质群体可能在不同的细胞类型之间产生误导性相似的特征（形成负例）。通过在训练过程中更加关注这些令人困惑但信息丰富的样本，scHSC提高了学习嵌入的区分性和鲁棒性。在18个真实 scRNA-seq 数据集上进行了实验评估，结果表明scHSC与其他方法相比，展现出显著更优的聚类性能。

图1 scHSC 框架。scHSC主要由三部分构成：对比学习模块（步骤 2.1 和 2.2）、样本加权模块（步骤 3.1–3.3）以及基于 ZINB 的自动编码器（步骤 4）。预处理后的基因表达矩阵首先输入属性编码器，而KNN图则输入结构编码器，分别生成两个属性嵌入和两个结构嵌入。这四个嵌入随后以两种方式联合使用：(1)它们被输入样本加权模块，根据相似度矩阵自适应地分配样本权重，(2)它们作为输入提供给基于 ZINB 的自动编码器，以有效建模scRNA-seq数据中固有的高稀疏性

参考文献

[1] Fang S, Yu X, Xu X, Zhang J, Li X. scHSC: enhancing single-cell RNA-seq clustering via hard sample contrastive learning. Brief Bioinform. 2025;26(5):bbaf485. doi:https://doi.org/10.1093/bib/bbaf485

以往推荐如下：

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库：CITEdb

5. EMT标记物数据库：EMTome

6. EMT基因数据库：dbEMT

7. EMT基因调控数据库：EMTRegulome

8. RNA与疾病关系数据库：RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库：RM2Target

10. 非编码RNA与免疫关系数据库：RNA2Immune

11. 值得关注的宝藏数据库：CNCB-NGDC