癌症及其应用的生物信息学工具和资源
癌症是一种具有高度侵袭性和异质性的疾病,包括许多组织类型和多种致癌驱动因素。癌症的许多特征已被确定,包括持续的增殖信号、逃避生长抑制因子和避免免疫破坏,这些特征促进了癌症表型和基因型的广泛复杂性。随着生物技术的进步,已经产生了大量的组学数据,包括基因组学、转录组学、表观基因组学和其他组学数据,以系统地测量肿瘤特征的不同方面。这些数据集提供了癌症分子景观的全面概述。组学数据的激增也导致了许多生物信息学数据库和工具的发展,以促进这些数据的存储、检索、集成和分析。通过提供对驱动肿瘤发生的分子机制的见解,揭示肿瘤微环境(TME),确定早期检测和预后的潜在生物标志物,以及指导针对个体患者的靶向治疗发展,整合和分析组学数据集已经彻底改变了癌症研究。
最近的综述中,Huang等人介绍了癌症研究中公开可用的生物信息学工具和数据资源。这些工具和资源可用于泛癌分析、肿瘤发生调控、治疗和预后、免疫浸润、免疫库、癌症驱动基因和癌症单细胞数据集(图1)。该综述旨在帮助研究人员根据不同的目的和应用选择合适的生物信息学工具和资源进行癌症研究。
图1 肿瘤生物信息学的计算方法和工具概述
泛癌症多组学分析在线资源
高通量测序可以产生大量的癌症组学数据。为了方便用户使用这些数据,已经构建了许多数据库和Web服务器。这些泛癌症多组学数据的主要数据库、分析平台、特点和功能如表1所示。
表1 在线泛癌症多组学分析Web服务器和数据库综述
肿瘤发生表达和调控分析在线数据库
肿瘤发生过程中的基因表达受多种因素调控,包括DNA甲基化、染色质开放和转录因子(TFs)。表2总结了几种用于肿瘤发生表达和调控分析的在线数据库。
表2 肿瘤表达与调控分析在线资源综述
肿瘤治疗及预后
基因测序数据与临床数据的结合在癌症的诊断和治疗中得到了广泛的关注。许多数据库和Web服务器,已经开发出来用于创建预测模型和提供治疗信息,包括前面提到的一些数据库。ICGC、cbiopportal、UCSC Xena、GEPIA2、GSCA (GSCALite)、GDAC Firehose、CVCDAP、UALCAN、TCPA和CancerProteome可以帮助评估基因组数据(mRNA、miRNA、蛋白质、DNA和甲基化)与患者生存之间的相关性。表3列出了用于癌症预后和治疗目的的其他有用工具。
表3 癌症预后和治疗数据库综述
免疫浸润和肿瘤抗原HLA分型资源
肿瘤免疫微环境由肿瘤细胞、成纤维细胞、免疫细胞和各种分子组成,是了解肿瘤研究中免疫浸润的必要条件。准确预测肿瘤抗原及其与人类白细胞抗原(HLA)的结合亲和力对于有效的肿瘤免疫治疗至关重要。表4概述了用于这些预测的关键工具。
表4 免疫浸润和肿瘤抗原HLA分型的计算工具和资源综述
免疫库分析
探索B细胞和T细胞受体(BCR和TCR)库对于理解适应性免疫反应和免疫治疗至关重要。为了处理这些庞大的数据,设计了几种生物信息学资源,旨在鉴定重组V/D/J基因,注释互补决定区(CDR)区域,并注释整个免疫库(表5)。
表5 免疫库分析工具和数据库综述
癌症驱动基因和体细胞突变分析资源
迄今为止,在了解与人类癌症有关的突变和异常基因方面取得了重大进展。例如,全基因组关联研究(GWAS)为癌症的遗传结构提供了见解。然而,从大规模基因组数据中系统地鉴定驱动突变和介导肿瘤生理效应的基因仍然是一个巨大的挑战。表6介绍的这些数据库,它们致力于识别癌症体细胞突变、GWAS癌症风险变异以及随后的驱动突变识别。
表6 识别癌症驱动基因和体细胞突变的在线资源和工具综述
癌症单细胞数据库和分析资源
在过去几年中,大量癌症单细胞RNA-seq (scRNA-seq)数据集的爆炸式增长导致了对整合的需求。表7总结了癌症scRNA-seq数据的各种数据库和工具。
表7 癌症单细胞数据库和分析资源综述
结论与展望
在过去的十年中,随着测序技术的显著进步,癌症研究界产生的组学数据量大幅增加。为了解释这些数据,需要有效的收集和全面的分析。本综述介绍了一系列存储大量癌症组学数据的重要数据库,以及用于整合、挖掘和可视化癌症数据的在线分析平台和工具。这些资源有助于癌症研究人员探索癌症的分子机制、个性化治疗和预后。
随着生物信息学方法的发展,多组学数据的整合和分析,以及组学数据与其他数据方式如组织病理学数据的整合,将加深我们对癌症的全面认识。从电子健康记录中提取更详细临床信息的新方法的发展也将有助于解释疾病背景下的组学数据。此外,用户友好的界面和在线平台为没有生物信息学专业知识的个人提供了方便的数据访问和分析。由于数据提交人员的不完整数据注释限制了对数据的访问,这往往阻碍了数据的利用。
因此,加强数据标注的标准化,建立高效的数据共享策略,开发安全便捷的数据共享平台,对于增强数据的可及性和可比性至关重要。现有数据库和图谱的不断更新和扩展对于包含更广泛的肿瘤类型、细胞类型和数据类型至关重要。需要创新的方法来准确分析和解释单细胞测序数据,识别细胞类型和状态,并阐明TME中不同细胞类型之间的复杂相互作用。本综述存在一些局限性和不足。首先,由于正在开发新的工具和数据库,覆盖范围可能有限。此外,缺乏对每个数据库和生物信息学工具的具体使用方法的详细描述,这可能限制了研究人员对这些工具的全面理解。
参考文献
[1] Huang J, Mao L, Lei Q, Guo AY. Bioinformatics tools and resources for cancer and application. Chin Med J (Engl). 2024. doi: 10.1097/CM9.0000000000003254.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1447190.html?mobile=1
收藏