癌症基因的组织特异性
识别癌症驱动基因,这些基因的体细胞突变赋予肿瘤细胞生长和选择性优势,有助于理解肿瘤生物学和指导药物开发。像癌症基因组图谱(TCGA)这样的大规模努力已经使用多种基因组技术对数千个肿瘤进行了分析,并且已经提出了多种方法来识别突变驱动基因。一般来说,大多数方法通常按组织学或起源组织分组的肿瘤样本,根据突变在一系列样本中的复发情况来定义驱动基因。然而,这种混合方法有一个关键局限性:在这些研究中所代表的常见癌症类型中常见的基因突变,例如肺癌或乳腺癌,往往主导着最终的癌症驱动基因结果列表。这种偏差是由较不常见的癌症样本量相对较小所驱动的。在大多数全癌症队列中,在检测稀有癌症中的基因方面,往往导致驱动基因的统计效率低和假阴性率高。因此,在不太常见的癌症中发挥重要作用的基因可能未被充分认识,限制了我们对情境特异性致癌的机制理解,以及所有突变驱动基因在各个组织中的选择性和疾病流行程度。
尽管存在这一局限性,大量研究已经提出,组织特异性实际上在癌症遗传学中普遍存在。虽然少数基因如 TP53 广泛发生突变,但大多数癌基因和抑癌基因在整个体细胞突变中表现出受限的组织分布,由潜在的转录、表观遗传和蛋白质组状态塑造。例如,TCGA 泛癌症驱动基因目录报告称,在 258 个驱动基因中,有 142 个(55%)是仅与一种癌症类型相关,而只有少数基因,如 TP53、PIK3CA、 KRAS、PTEN 和 ARID1A,在大多数癌症类型中表现出广泛的分布。
基于这一观点,为了更好地了解癌症基因组织特异性的程度,尽可能广泛地研究在人类各种癌症中的功能体细胞突变。为了实现这一点,Chen等人开发了一个统计框架用于评估体细胞在每个组织学亚型中的突变富集,并将这一框架应用于最大的一个公开可用的全癌症临床基因组数据集AACR GENIE v18.0(图1)。经过严格的管理和质量控制,最终分析包括146,394个原发肿瘤样本中跨越265个组织学亚型的590个基因的体细胞突变数据。确定了95个基因在研究范围内至少在一种癌症亚型中具有显著的功能突变富集,并随后定义了一个新的度量来量化每个基因在癌症类型中如何选择性地突变,同时考虑亚型特异性差异功率、突变频率和其他技术混杂因素。这种方法能够在全谱人类恶性肿瘤中更平衡地检测癌症驱动因素,这为研究组织限制性致癌过程,特别是与不太常见的癌症相关的过程奠定了基础。
图1 事后管理和质量控制步骤之后,AACR GENIE v18.0数据集的突变属性。(A)最终分析中包含的独特原发肿瘤样本的计数,按主要组织分层。(B)许多基因的泛癌突变频率与其最高亚型限制突变频率之间存在很大差异。这里显示的是112个GENIE注释的驱动基因,在GENIE中具有足够的测序覆盖率(≥80%的患者测序,至少两个中心测序≥1000次,≥10%的癌症类型中存在)。对于每个基因,灰色线段将其平均泛癌突变频率与在其最允许的组织亚型中观察到的突变频率连接起来。基因沿x轴排列,泛癌率增加。在泛癌和亚型限制性突变频率之间表现出异常大差异的基因(绝对差异>0.30)在轴上用标签进行注释。(C-D)SEER调整后的GENIE突变频率(y轴)与(C) GENIE和(D) TCGA中泛癌未调整的突变频率对比
参考文献
[1] Jiayi Chen, Ryan Collins, Kevin M Haigis. The tissue specificity of cancer genes. bioRxiv 2025.09.21.677175; doi: https://doi.org/10.1101/2025.09.21.677175
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
41. RegNetwork 2025:人类和小鼠基因调控网络整合数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1506525.html?mobile=1
收藏