||
估计7,000 个肿瘤的样本特异性转录网络
肿瘤具有异质性,通过克隆进化发展和积累突变,包括驱动癌症的单核苷酸变异(SNV)和体细胞拷贝数变异(SCNA)。除了肿瘤细胞内变化外,肿瘤在包含免疫细胞、细胞外基质、血管和周围细胞的微环境中发展并被其塑造。这种广泛的异质性要求针对个体患者的异质性治疗。然而,在患者特异性分辨率下估计治疗效果和患者预后意味着需要采用 n-of-1 的治疗方法,这在技术和时间上都是不可行的。相反,以往方法一直寻求识别预后生物标志物,将患者分层到肿瘤亚型队列中,以及识别通常对治疗有反应的患者的预测生物标志物。癌症基因组图谱(TCGA)通过临床和分子数据的聚类分析推导出预后亚型,包括癌症驱动 SNV、SCNA、DNA 甲基化、线粒体 DNA、RNA-seq、miRNA、蛋白质丰度阵列、组织学图像、患者人口统计学信息以及/或免疫学数据,并进一步识别预后生物标志物作为区分这些聚类的特征。虽然聚类分析可以按特征分层进行分析,但聚类分析忽略了定义生物系统的潜在特征交互和层次特征关系。通过聚类分析识别的生物标志物缺乏机制解释,需要进一步实验验证其在肿瘤发生和肿瘤病理中的作用。因此,利用体细胞 DNA 改变或基因表达模式识别生物标志物已被证明具有挑战性。针对聚类分析的不足,我们关注三个问题:1)我们如何模拟与肿瘤发生和治疗疗效相关的分子相互作用机制,2)我们如何识别预后生物标志物对于罕见疾病和样本量过少的异常患者,它们难以进行聚类,以及 3)我们如何量化肿瘤病理的异质性,这是一个被广泛认可但理解不足的问题,如何利用多视角表型、分子和环境数据来理解驱动异质性的力量?
GRN帮助我们同时研究这些问题,它代表细胞电路,既响应生物分子刺激又驱动肿瘤发生。不同生物分子实体之间的相互作用可以通过转录组调控在细胞水平上被识别,既直接又间接。理论上,肿瘤特异性 GRN捕捉了个体癌症中的调控冗余和脆弱性。将肿瘤特异性 GRN与表型、环境和多组学特征联系起来,可以揭示这些特征如何与肿瘤病理学以及治疗靶点的鲁棒性 GRN 重构和组织相关。单细胞和多组学分析推进了研究 GRN 中高度情境特异性调控关系的能力,但推断 GRN 的计算方法仍然依赖于将样本划分为同质样本集。基于划分的建模不足以捕捉高分辨率或持续重构的 GRN,这对精准肿瘤学来说是一个问题,因为某些类型的癌症既不形成离散簇,也不按起源组织形成簇。
更普遍地,数据集复杂度、异质性和规模的增加,推动了在多个应用领域开发“个性化”模型的方法。个性化模型旨在将异质分布表示为样本特定的分布 Xi∼Pi(X),其中 i 索引样本 Xi,Pi 对应样本特定分布。在样本特定推断的最困难情况下,每个 Pi 仅被观测一次,因此信息必须在样本之间共享。
为实现跨样本共享信息的目标,大多数个性化模型做出了简化的假设,即所有Pi 都属于同一族。通过个性化建模的视角,理解样本异质性被重新定义为估计具有样本特定参数的数据分布。一些方法通过施加强烈的生物学先验或使用样本排除法来提供样本特定估计器,而无需额外信息,但这些方法缺乏理想的特性,如泛化到新样本的能力,甚至无法在保留数据上测试模型性能。由于估计样本特定参数的困难,大多数方法利用辅助信息(例如,样本元数据)作为样本间差异的上下文表示。
为了推断考虑患者间异质性的肿瘤特异性 GRN,Ellington等人提出在情境化建模范式内重新构建 GRN 推断方法CancerContextualized,通过关联这些任务的临床和分子情境,在肿瘤特异性推断任务间共享信息(图 1,https://github.com/cnellington/CancerContextualized)。通过将网络重新构建为可学习情境编码器的输出,CancerContextualized方法在样本间共享统计能力,同时允许细粒度变化以捕捉样本特定情境的复杂性,如组织来源、体细胞突变景观、肿瘤微环境和临床测量。CancerContextualized在情境化建模范式下为三种类型的 GRN(马尔可夫网络、邻域网络和相关网络)构建了三种可微分的目标,并估计样本特定的 GRN,以实现潜在调控过程的样本特定分析。将该CancerContextualized计算框架应用于来自 TCGA 的 7,997 个组织样本,使用批量基因表达数据作为网络样本X,并将免疫细胞浸润指标、患者人口统计学信息以及癌症驱动 SCNA 和 SNV作为情境 C。 研究发现,情境化网络可以提高对保留表达数据的预测能力,并揭示先前被基于划分的网络推断方法所掩盖的潜在异质性。
图1 (A) 传统建模方法假设每个训练队列或(亚)群体是同质的,样本是相同分布的。队列必须足够大,以允许稳健推断,这体现了个性化与效能之间的权衡。(B) 语境化假设模型参数是上下文的函数,允许进行强大的上下文特定推断,而无需预先聚类亚群体或假设同质性。上下文可以是每个样本独有的,允许进行样本特定的模型推断。(C) 样本特定模型揭示了群体异质性,将罕见病理机制与更常见机制联系起来,并为预后和生物标志物识别提供数据视角。(D) 深度学习框架的图形描述。样本上下文用于预测模型原型上每个权重,称之为模型亚型。样本特定网络被估计为原型网络与亚型权重的张量点积。网络原型与上下文编码器一起使用反向传播同时学习
参考文献
[1] Ellington CN, Lengerich BJ, Watkins TBK, Yang J, Adduri AK, Mahbub S, Xiao H, Kellis M, Xing EP. Learning to estimate sample-specific transcriptional networks for 7,000 tumors. Proc Natl Acad Sci U S A. 2025 May 27;122(21):e2411930122. doi: 10.1073/pnas.2411930122.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-9-23 06:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社