scComm:单细胞分辨率下细胞通讯的对比学习框架
细胞通讯(CCC)调节多细胞生物体中邻近和远距离细胞之间生物过程的动态协调。细胞间信号传导涉及配体、受体和下游信号分子的交换,这些分子使细胞能够相互影响彼此的行为,如增殖、分化和迁移。表征这些通讯网络对于理解细胞如何合作维持正常组织功能以及它们失调如何导致疾病至关重要。CCC事件主要通过发送细胞释放的配体与接收细胞上相应的受体结合而启动,并且可以通过分析编码配体和受体的基因的表达来推断。从2015年开始,通过文献整理和实验验证,已经建立了几个包含数百到数千个配体-受体(L-R)基因对的数据库。
细胞通讯推理方法通常遵循两种策略:自上而下或自下而上。自上而下的方法首先将细胞分组到预定义的簇或细胞类型中,然后将每个组内的L-R表达进行聚合,以推断组间的通讯。相比之下,自下而上的方法首先推断单个细胞之间的相互作用,然后根据其通讯特征的相似性对细胞进行分组。虽然自上而下的方法,如CellChat和CellPhoneDB,在计算上高效,但它们忽略了簇内的细胞异质性,并且经常错过涉及稀有或功能上不同的亚群群的相互作用。这一局限性在肿瘤组织中尤其显著,其中恶性细胞表现出极高的异质性,使得将它们分类到确定的功能亚群中并分析与肿瘤亚群相关的CCC事件变得具有挑战性。自下而上的方法原则上可以捕获这种异质性,并揭示与常规细胞类型标签不一致的通讯定义的细胞群落。然而,目前用于推断单个细胞之间CCC的方法会产生大量的相互作用信息,而无需过滤或统计评估,这使得难以从背景噪音中区分生物学上有意义的相互作用。如果没有有效的策略来提取关键的CCC事件,有价值的生物学见解可能会被忽视。因此,迫切需要能够同时评估CCC而不受先前聚类限制的计算框架,并从高维数据中识别最有信息量的相互作用。CCC预测中的另一个重要挑战在于L-R数据库的可变性。正如Dimitro等人强调,CCC推理严重依赖于这些先验知识资源,然而现有数据库在内容上存在显著差异。因此,数据库的选择会显著影响推理出的相互作用及其功能解释。计算方法应设计为确保对数据库选择具有鲁棒性。
为了应对这些挑战,Jin等人引入了scComm(图1,https://github.com/ZijieJin/scComm),这是一个自底向上的计算工具,旨在以单细胞分辨率推断CCC。scComm应用了一种数据自适应的权重和评分模块,根据其重要性为L-R对分配权重,并采用监督对比学习框架来检测显著的CCC事件。scComm在模拟数据集和八个真实世界数据集上均表现出在CCC检测的准确性和敏感性方面的优越性能。当应用于一个结直肠癌数据集时,scComm揭示了与三级淋巴结构形成相关的增强的趋化因子介导的CCC活性,为三个患者组的治疗反应性提供了解释。这也展示了scComm检测细胞水平CCC的能力。此外,将scComm应用于一个大型肝癌队列,并检测到具有不同细胞间通讯模式的新型中性粒细胞亚型,这些模式促进肿瘤血管生成,为肿瘤进展和不良预后提供了解释。此外,scComm鉴定了三个具有其相互作用模式和不同肿瘤微环境特征的新型肿瘤细胞亚型,其中表现出低免疫浸润的肿瘤亚型与更高的恶性相关。值得注意的是,scComm量化了相互作用分数并描述了每个单细胞的微环境,作为基于CCC的细胞聚类工具在本研究中使用。

图1 scComm 工作流程。(a) scComm 流程整合单细胞 RNA 基因表达数据和配体-受体(L-R)数据库,根据其特异性、竞争性和数据集中下游活性动态为每对 L-R 分配权重。根据基因表达和 L-R 对权重计算细胞间通讯分数。得到的评分矩阵便于评估总合相互作用(1)、聚合到细胞类型水平或自定义分组(2),以及推断相互作用模式(3)。(b) 用于识别显著相互作用细胞对和/或细胞类型对的监督对比学习框架。相互作用评分排名前 5%的细胞类型对被视为真实 CCC 事件,随后采用数据增强策略生成正训练样本。应用细胞标签置换策略生成负训练样本。这些样本通过 MLP 编码器映射到低维空间,并应用 SupCon 损失函数训练网络。 (c) scComm 应用:在不同条件下细胞类型间的细胞间相互作用分析(1)、使用相互作用分数作为特征向量进行细胞聚类(2),以及特别地,在肝癌研究中识别肝脏中的中性粒细胞和肿瘤细胞的亚型
参考文献
[1] Jin Z, Tang Z, Li X, Zhang K, Xie Z, Zhang N. scComm: a contrastive learning framework for deciphering cell-cell communications at single-cell resolution. Genome Biol. 2026 Mar 24. doi: https://doi.org/10.1186/s13059-026-04043-9.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
42. CircTarget:多种细胞类型circRNA调控综合数据库
43. GreenCells:植物lncRNA单细胞分析资源
44. RM2Target 2.0:RNA修饰的写入者、擦除者和读取者靶基因数据库

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1530987.html?mobile=1
收藏