CellNEST:从空间转录组学中利用注意力机制揭示细胞-细胞中继网络
细胞通讯(CCC)使细胞能够进行复杂的协调,在多细胞生物中形成组织和器官,并完成关键的生物功能。然而,细胞间的异常通讯或分子信息的非典型解码可能导致并促进疾病,如癌症。CCC与癌症的几个特征有关,如肿瘤促进炎症、诱导或进入血管系统以及激活侵袭和转移。确定负责正常和异常细胞和组织功能的通讯,为下一代治疗方法提供信息,这一点至关重要。
CCC由配体-受体对介导,其中“发送方”细胞产生配体蛋白,与“接收方”细胞上的匹配受体分子结合。鉴定CCC的常用技术使用单细胞RNA测序(scRNA-seq)数据,通过将发送方细胞类型的高表达配体基因与接收方细胞类型的高表达受体基因进行匹配,优先考虑具有高“配体-受体共表达分数”的配体-受体对。这些分数代表配体-受体对的总体表达。在识别配体-受体对后,这些方法通过使用统计检验确定每对的置信度、用通路替换受体基因或使用基于图的方法而有所不同。其他一些,如CellChat,使用网络分析和模式识别方法。NicheNet使用信号通路网络和PageRank算法。尽管这些方法取得了进展,但检测CCC仍然是一个重大挑战。现有方法的一个主要局限性源于CCC定义的范围有限。而不是局限于单一的配体-受体对,通讯可以作为一个由多对细胞介导的中继网络。当一个细胞的配体与另一个细胞上的同源受体结合,并诱导与第三个细胞的受体结合的另一个配体的分泌时,形成中继网络。这种信号传递可以跨越多个细胞。这些模式的频率可能表明CCC识别的置信度更高。
即使使用单配体-受体对CCC检测,过去的努力也证明了很高的假阳性率和阴性率,这在一定程度上是由于使用了来自细胞的单一数据模式(转录组)。只有6%的基因在对配体的反应中表现出显著的表达变化,这可能导致在没有其他背景(如邻近细胞)的情况下准确性较低。这种空间背景在scRNA-seq中丢失了,因为该方法需要组织分离。由于CCC是空间依赖性的,因为旁激肽和旁分泌需要细胞靠近,scRNA-seq为真正的单细胞CCC检测而不是细胞类型通讯带来了挑战。
最近,已经引入了Scriabin和GraphComm等方法,仅从scRNA-seq数据中检测CCC,并使用相应的空间转录组数据将最终结果映射到组织内的空间区域。然而,这些方法结合了空间位置,不是为了检测CCC,而是为了验证已经从分离样本中识别出的CCC。这些方法也没有报告距离远的配体-受体相互作用,如旁分泌相互作用,这些相互作用构成了大多数配体-受体数据库的大部分。为了克服这些局限性,直接整合基因表达空间背景的新CCC模型是必要的。
空间转录组技术,如Visium和多重抗误差荧光原位杂交(MERFISH),测量与其转录物配对的细胞物理位置,为检测CCC提供了新的机会。Visium测量条形码斑点的转录组,每个斑点 直径为55μm,包含约1-10个细胞,而最近推出的Visium HD(高清)实现了2 μm,MERFISH实现了单细胞分辨率,尽管基因子集较小。关键的是,尽管这种数据模式有望更好地为CCC检测提供信息,但迫切需要超越单配体-受体对推断的新分析方法。
尽管已经开发出直接从空间转录组数据中检测CCC的方法,但大多数现有方法无法在原位以单细胞分辨率检测CCC中继网络。NICHES使用k近邻来识别近端细胞,并计算其配体-受体共表达得分。NICHES然后使用主成分分析将细胞折叠到邻域,以发现通讯的利基。COMMOT通过集体最佳运输在空间转录组学中筛选CCC。然而,COMMOT需要一个网络路径列表作为额外的输入,这增加了它对先验信息的依赖。这些方法大多使用差异表达和可变的配体和受体基因,只结合空间信息来限制与细胞附近的潜在交流。最近的方法,包括NicheCompass、Clarify和TENET,模拟了细胞或斑点之间的二元CCC,并且不区分配体-受体对的类型。因此,这些方法无法识别特定的CCC信号及其在组织空间区域的相关强度。HoloNet代表了一类单独的方法,这些方法对给定的靶基因有约束,无法为给定的组织样本生成无偏的、全局的活性CCC列表。CytoSignal将成对细胞之间的配体和受体浓度相乘,以计算通讯分数,并使用细胞重排的置换检验。然而,CytoSignal将一对细胞之间的所有配体-受体对组合成一个分数,这阻止了该方法根据不同配体-受体的发生概率对其进行排名。SpaCCC、Giotto、TWCOM和CellChat的空间方法侧重于细胞类型或簇级别的CCC,而不是单个细胞或斑点,缺少复杂的通讯网络组件。此外,这些现有的方法都没有试图识别CCC中继网络,这限制了对大型通讯模式的发现。为了满足对能够预测复杂CCC中继网络的准确、高分辨率方法的需求,亟待一种由深度学习支持的复杂模式发现算法。
为了便于CCC检测,可以将来自空间转录组数据的通讯表示为知识图,其中细胞或斑点是顶点,边表示不同类型的邻域关系。由于目标是预测哪些关系是可能的通讯,因此解开通讯网络的深度学习选项是图神经网络(GNN)。GNN通过生成图嵌入,成为在图表示中编码拓扑结构的有效模型。GNN的变体已经应用于转录组数据,包括用于聚类的图卷积网络和用于解卷积和积分的基于GNN的编码器。Transformer家族的一个新成员是图注意力网络(GAT),这是一个强大的工具,已经彻底改变了其他基于知识图的问题,包括社交网络和分子结构。由于该模型需要真实数据进行监督模型训练,替代方法三是对比学习方法Deep Graph Infomax(DGI),该方法在无监督学习问题上表现出色。
基于人工智能领域的最新进展,最近Zohora等人提出了CellNEST(图1,https://github.com/schwartzlab-methods/CellNEST),这是一种通过利用GAT编码器模型和DGI对比学习来测量单个细胞或斑点之间的细胞通讯和模式的方法。CellNEST模型应用于跨多个组织、物种和技术的五个生物背景,以绘制空间分辨的CCC。使用单细胞配体-受体对检测和CCC中继网络的新基准,CellNEST在生物样本和合成数据方面都优于现有方法。CellNEST不仅可以使用MERFISH和新的Visium HD技术准确重建细胞之间的传统单配体-受体信号,还可以报告基于在二维(2D)和三维(3D)空间转录组样本中观察到的重复模式的潜在中继通信网络。值得注意的是,将CellNEST应用于胰腺导管腺癌(PDAC)患者队列,揭示了与PDAC进展相关的关键CCC,以及与治疗反应和总生存率相关的已知PDAC亚型的空间相关性。正如所证明的那样,CellNEST并不局限于单一的技术或物种。相反,它是一种适用于跨数据的可迁移模型。总之CellNEST是加速将深度学习应用于空间转录组学和其他基于知识图的相关背景的重要一步。
图1 CellNEST检测细胞通讯概述。 a、CellNEST方法主要步骤流程图。b、在任一点(例如Visium)或细胞分辨率(例如MERFISH、Visium HD)输入组织样本。UMI,独特的分子标识符。c、输入配体-受体数据库,其中包含已知的配体和同源受体配对。d,预处理步骤,其中表达高于阈值百分位数的基因被认为是活性的(左)。顶点之间的成对欧式距离存储在物理距离矩阵中(右)。e、输入图G = (V,E)生成步骤,其中V个点或细胞作为顶点,E条边作为邻域关系,其中一些表示通讯(底部)。输入阈值距离用于邻域形成(蓝色箭头)。从图中,顶点特征表示为一个单热向量矩阵(左上角)。边缘特征矩阵保存了包含三个属性的边缘特征向量:成对距离、配体-受体共表达得分和数据库中的配体-受体对同一性,通过DGI的无监督对比学习使用GAT编码器进行通讯预测步骤。g,输出图步骤,可视化具有最高注意力得分的边。注意力得分范围从0(白色)到1(黑色),其中1表示最强的连接。较低的评分边被删除(虚线),从而产生连通顶点的子图。h,示例输出显示了肿瘤注释点(实心方块)与基质点(空心圆)之间的通讯流,由连通成分着色。i、CellNEST生成的直方图显示了前20%得分最高的注意力边缘中通过配体-受体对进行交流的频率。直方图中的颜色对应于h中的连通分量。例如,标记为FN1-RPSA的最丰富的通讯主要位于蓝色区域。总之,CellNEST提供了一种高分辨率的方法来检测组织中细胞通讯的强度和位置
参考文献
[1] Zohora FT, Paliwal D, Flores-Figueroa E, Li J, Gao T, Notta F, Schwartz GW. CellNEST reveals cell-cell relay networks using attention mechanisms on spatial transcriptomics. Nat Methods. 2025 Jun 6. doi: 10.1038/s41592-025-02721-3.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1492940.html?mobile=1
收藏