生物标志物发现的表达图网络框架
分类问题构成了机器学习的基石,其首要目标是根据观察结果的属性将其分类为离散的类。这一过程在医疗保健中尤为重要,精确的分类直接影响诊断、治疗策略和患者结果。机器学习彻底改变了传统的分析方法,提供了处理和解释复杂数据集的创新方法。这些技术在生物标志物发现中的应用已成为一个特别有前景的领域,为研究人员提供了强大的工具来识别可以预测疾病状态、进展和治疗反应的分子指标。
基于图的学习方法在生物医学研究中引起了极大的关注,因为它们具有模拟生物实体之间复杂关系的独特能力。与将样本视为独立观察的传统机器学习方法不同,基于图的方法利用了生物数据的内在联系,捕捉了可能仍然模糊的关系。这种能力在生物标志物发现中特别有价值,在生物标志化合物发现中,理解分子之间的相互作用可以比单独分析单个特征更深入地了解疾病机制。
基于聚类的特征工程是一种强大的技术,通过基于共享属性对相似的数据点进行分组来改进机器学习模型,从而提取有意义的模式。一种广泛使用的方法是K-means聚类,该方法基于特征空间中的接近度对数据点进行聚类。K-means聚类已被应用于各种特征工程应用中,通过识别相邻数据点之间的关系来提高模型性能。通过分析这些集群内的相互关系,模型可以做出更明智的预测,因为相邻数据点之间的相互作用通常会揭示潜在的数据结构。与降维技术不同,基于聚类的方法,如K-means聚类,侧重于通过利用这些相互关系来提高模型性能,而不是减少特征数量。分层聚类通过在不同相似性水平上创建嵌套聚类来扩展这一概念,这在概念上与生物相互作用的多层次性质相一致,并为发现不同尺度生物组织中的生物标志物关系提供了一个自然框架。
在各种分类技术中,逻辑回归等传统方法在生物标志物研究中仍然以其简单性和可解释性而闻名。尽管这些方法被广泛使用,但它们往往无法捕捉到生物系统中存在的复杂、非线性关系,从而限制了它们在综合生物标志物发现中的实用性。虽然支持向量机(SVM)、随机森林模型和elastic网络回归为生物标志物发现提供了更稳健的方法,特别是在高维环境中。但这些方法主要基于表格数据,并不能固有地解释生物系统的网络结构。随机森林模型虽然能够通过其决策树集合捕获非线性相互作用,但仍然独立处理特征,不能直接包含生物网络中编码的关系信息。
GNN已经成为一类强大的模型,旨在通过利用生物应用中流行的图形结构数据来推进生物标志物的发现。GNN捕获了表示为节点的生物实体之间的复杂关系,以及由边定义的相互作用。最突出的GNN架构包括GCN(Graph Convolutional Network)和GAT(Graph Attention Network)。GCN通过利用邻接结构将卷积神经网络扩展到图形数据,实现了连接特征之间的高效信息传播。GAT通过引入注意力机制来增强这种能力,该机制允许模型动态地加权不同节点邻居的重要性,而最近的架构通过更好地捕获图拓扑的位置和结构编码进一步提高了性能。
通过基于图的方法整合多组学数据,显著增强了临床相关生物标志物的识别。先前的研究表明,与传统方法相比,在患者分类和生物标志物识别方面具有更优的性能。例如,Wang等人介绍了MOGONET,这是一个使用图卷积网络集成多组学数据的框架。同样,Ramirez等人将GCN应用于癌症分类,展示了基于图的方法在基于基因表达数据区分癌症类型方面的潜力。这些研究强调了基于图的方法在捕捉不同生物层之间复杂相互作用方面的力量。
现有的基于图的生物标志物发现方法通常依赖于已建立的生物网络,如蛋白质相互作用网络或共表达网络。Langfelder和Horvath开发的加权基因共表达网络分析(WGCNA)已被广泛用于鉴定可作为潜在生物标志物的共表达基因模块。在此基础上,最近的方法提出了基于共表达基因模块的多级注意力图神经网络,用于疾病诊断和预后,显示出改进的预测性能和可解释性。
尽管取得了这些进展,但现有方法的一个关键局限性是,它们不是专门为生物标志物发现中的组织样本分类量身定制的。大多数方法依赖于预定义的生物网络,这可能无法准确反映与所研究的疾病或病症相关的特定关系。此外,这些方法往往难以处理不同样本量的数据集,限制了它们在不同临床环境中的适用性。因此,最近Liu等人介绍了EGNF(Expression Graph Network Framework,图1,https://github.com/yliu38/EGNF),这是一种将网络生成与GCN和GAT相结合的新方法,用于基于基因表达的分类。
图1 基于网络的特征选择框架
这种方法通过两个主要贡献推动了机器学习在生物医学应用中的发展。首先,EGNF利用深度学习来增强从基因表达数据中提取复杂模式和关系的能力,从而显著提高分类准确性。虽然深度学习已被应用于这些目的,但EGNF方法独特地采用层次聚类来识别有意义的生物关系,在传统的基于聚类的特征工程和先进的基于图的学习方法之间提供了一座天然的桥梁。生成的网络捕获样本和特征之间的复杂关系,自适应地配置到不同的样本大小,同时保持生物相关性。其次,EGNF建立了一种针对基因表达数据量身定制的具有生物学意义的基于网络的特征选择方法。通过将网络分析与传统统计技术相结合,EGNF方法可以识别出具有统计学意义和生物学相关性的基因模块,从而更深入地了解疾病进展机制。这种方法在保持预测能力的同时降低了数据复杂性,并最终提高了机器学习模型的可解释性。
这些贡献共同提供了优于现有方法的几个优势:(1)EGNF通过利用生成的图中编码的复杂模式,实现了更准确的患者/样本分层;(2)EGNF通过强调生物标志物之间的重要联系,提供了对疾病状态背后的生物学机制的见解;(3)EGNF促进了多模态数据的整合,捕捉了跨越不同生物领域的关系;(4)EGNF在不同的数据集和疾病类型上表现出稳健的性能,表明其在精准医学中具有广泛的适用性。
参考文献
[1] Yang Liu, Jason T Huse, Kasthuri Kannan. Expression graph network framework for biomarler discovery. bioRxiv 2025.04.28.651033; doi: https://doi.org/10.1101/2025.04.28.651033
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1489433.html?mobile=1
收藏