||
蛋白质功能预测算法综述
*注:本文未正式发表,仅供参考。
1. 引言1.1 蛋白质功能预测的背景与意义
蛋白质功能预测是生物信息学中的核心任务之一,对于理解蛋白质在生物系统中的作用机制、揭示疾病机理以及推动药物研发具有重要意义。随着高通量测序技术的快速发展,已知的蛋白质序列数量呈指数级增长,然而,仅有不到1%的蛋白质序列被实验注释了其具体功能,形成了序列与功能信息之间的巨大鸿沟 [2]。这一差距不仅限制了我们对蛋白质功能网络的全面理解,也阻碍了基因组学、系统生物学和精准医学等领域的进一步发展。因此,开发高效的计算方法来预测蛋白质功能,成为当前生物信息学研究的热点与难点。
蛋白质功能预测的核心目标是通过计算手段,从已知的生物数据中推断未知蛋白质的功能属性。这些功能通常以Gene Ontology(GO)术语、Enzyme Commission(EC)编号等形式表示,涵盖分子功能、生物过程和细胞组分三个层面 [1]。准确的功能预测不仅有助于解析蛋白质在细胞通路中的角色,还能为药物靶点识别、疾病标志物筛选以及合成生物学设计提供理论支持。近年来,随着人工智能和深度学习技术的迅猛发展,蛋白质功能预测方法也经历了从传统基于序列比对的同源推断到多源数据融合建模的转变。早期方法主要依赖于BLAST、PSI-BLAST等工具进行序列相似性搜索,通过已知功能蛋白的注释信息推断目标蛋白的功能。然而,这种方法在面对序列相似性较低或缺乏已知功能同源蛋白的情况时,预测能力显著下降。为了克服这一局限,研究者开始引入蛋白质结构、蛋白质-蛋白质相互作用(PPI)、共表达网络等多模态数据,并结合图神经网络(GNN)、预训练语言模型(如ESM、AlphaFold)等先进算法,实现更精准的功能预测 [4]。
尤其值得注意的是,基于结构与序列的深度学习模型在功能预测中展现出巨大潜力。例如,DPFunc通过引入结构域信息引导模型学习功能相关区域,显著提升了功能预测的准确性和可解释性 [2]。此外,PhiGnet利用统计信息驱动的图网络,结合进化耦合与残基社区信息,在仅依赖序列的情况下实现了高精度的功能注释 [4]。这些方法不仅提高了预测性能,还为理解蛋白质结构与功能之间的复杂关系提供了新的视角。
1.2 研究挑战与发展趋势尽管近年来蛋白质功能预测领域取得了显著进展,但仍然面临诸多挑战。首先,功能注释的不均衡性仍然是一个关键问题,许多功能类别缺乏足够的训练样本,导致模型在预测稀有功能时表现不佳。其次,多模态数据的整合仍存在技术瓶颈,不同来源数据的异构性、噪声以及数据缺失问题,使得模型难以充分发挥各模态信息的互补优势。此外,模型的可解释性也是一个亟待解决的问题,尤其是在生物医药领域,预测结果的可解释性对于实际应用至关重要。
在此背景下,未来的研究趋势正朝着几个重要方向发展。一是利用更强大的表示学习方法,例如基于蛋白质序列的预训练语言模型,以提升模型在低同源性条件下的预测能力。二是构建更加鲁棒的图结构,以更好地建模蛋白质之间的复杂相互作用关系。三是探索更具泛化能力的模型架构,使其能够在功能注释稀缺的情况下依然保持良好的预测性能。此外,随着AlphaFold等结构预测工具的广泛应用,如何有效利用预测结构信息提升功能预测的准确性,也成为当前研究的热点之一。
可以预见,随着人工智能技术的持续进步以及生物数据的不断丰富,蛋白质功能预测方法将不断突破现有瓶颈,向更高精度、更强泛化能力和更广泛适用性方向发展。这一领域的持续演进,将为生命科学的研究提供更加坚实的数据与方法支撑。
2. 基于蛋白质相互作用网络的功能预测方法2.1 PPI网络构建与分析蛋白质-蛋白质相互作用(PPI)网络的构建是生物信息学研究中的核心任务,其在解析蛋白质功能、揭示生物过程的分子机制以及发现疾病相关靶点中发挥着重要作用。PPI网络通常通过实验技术(如亲和纯化-质谱分析、酵母双杂交系统)或计算方法(如基于已知相互作用数据库的推断)构建,并通过图论方法进行分析,以识别关键节点和功能模块[14]。例如,通过亲和纯化-质谱技术(AP-MS),研究者可以鉴定TP53BP1的相互作用蛋白,构建包含65个节点的PPI网络,从而揭示其在癌症调控中的潜在作用[14]。
在PPI网络的构建过程中,网络拓扑结构是分析蛋白质功能的重要依据。常见的拓扑指标包括节点度(degree)、介数中心性(betweenness centrality)和接近中心性(closeness centrality)。节点度反映了蛋白质的相互作用数量,高节点度的蛋白质通常被认为是“枢纽蛋白”(hub proteins),在维持网络稳定性和功能调控中起关键作用。例如,在海洛因使用障碍(HUD)的PPI网络中,JUN蛋白具有最高的节点度,被认为是该网络的核心调控因子[13]。此外,介数中心性用于衡量节点在信息传递中的重要性,高介数中心性的蛋白质通常作为“瓶颈蛋白”(bottleneck proteins),在信号传导和调控网络中起桥梁作用[13]。
节点属性的分析进一步增强了对PPI网络功能的理解。除了拓扑属性外,节点的生物学属性(如亚细胞定位、表达水平和进化保守性)也对功能预测具有重要意义。例如,研究发现多定位蛋白(multi-localized proteins)在植物核蛋白相互作用网络中具有关键作用,可能在细胞器通信和生长调控中扮演重要角色[11]。此外,通过整合蛋白质的结构信息、基因表达数据和共表达网络,可以提高功能预测的准确性。
核心节点的识别是PPI网络分析的重要目标之一。核心节点通常指在功能和拓扑结构上都具有关键作用的蛋白质。研究者通常采用聚类算法(如密度聚类、图聚类)来识别功能模块,并进一步筛选出核心调控节点。例如,在肺动脉高压(PAH)的多组学研究中,结合转录组、蛋白质组和DNA甲基化数据构建PPI网络后,研究者通过路径富集分析和网络拓扑分析,识别出九个关键基因及其相关蛋白,包括Col4a1、Itga5、Col2a1等,这些蛋白在PAH的病理过程中具有潜在调控作用[20]。此外,基于网络的聚类方法还可以揭示蛋白质在特定生物学过程中的协同作用,从而提高功能注释的精确性。
随着PPI网络构建技术的不断进步,其在蛋白质功能预测中的应用也日益广泛。构建高质量的PPI网络并进行系统分析,不仅有助于揭示蛋白质的生物学功能,还能为疾病机制研究和药物靶点发现提供理论基础。
2.2 聚类与功能模块识别在蛋白质功能预测的研究中,利用聚类算法识别功能模块已成为一种重要的方法。这种方法主要依赖于蛋白质-蛋白质相互作用(PPI)网络的拓扑结构,通过识别网络中的密集子图来推测潜在的功能模块。聚类算法主要包括密度聚类、图聚类等,它们在提高预测准确率方面展现出显著优势。
密度聚类方法,如DBSCAN(Density-Based Spatial Clustering of Applications with Noise),通过识别数据点的高密度区域来划分聚类。在PPI网络中,这种方法能够有效识别出具有紧密相互作用的蛋白质群集,这些群集往往对应于特定的功能模块。密度聚类的一个显著优势是其对噪声数据的鲁棒性,能够排除网络中的虚假相互作用,从而提高功能模块识别的准确性。
图聚类方法则利用图论中的概念,如节点度、模块度等,来识别网络中的功能模块。例如,基于模块度优化的Louvain算法能够高效地识别出PPI网络中的功能模块。这种方法通过最大化模块度来优化聚类结果,从而确保每个模块内部的相互作用密度高于模块之间的相互作用密度。这种策略在处理大规模PPI网络时表现出色,能够在较短时间内识别出高质量的功能模块[22]。
此外,进化聚类算法(Evolutionary Clustering Algorithm, ECTG)结合了拓扑特征和基因表达数据,进一步提高了功能模块识别的准确性。ECTG通过计算PPI网络中的拓扑特征值,并结合基因表达数据的相似性,有效去除了网络中的噪声数据。实验结果表明,ECTG在检测蛋白质功能模块方面优于传统方法,显示出其在功能预测中的潜力[21]。
链路聚类方法(Edge Label Propagate Algorithm, ELPA)也被用于识别PPI网络中的功能模块。ELPA通过传播节点标签来识别网络中的功能模块,这种方法在处理E. coli的PPI网络时表现出色。ELPA能够有效识别出与真实蛋白质复合物高度匹配的功能模块,并且在预测结果中揭示了一些新的、重要的蛋白质复合物和功能模块[22]。
Walktrap聚类算法(CW)在药物靶点发现和药物再利用研究中表现出色。CW通过计算节点之间的随机游走距离来识别网络中的功能模块。研究表明,CW在整合基因扰动数据和PPI网络信息方面具有显著优势,能够有效预测药物靶点基因,并通过文献证据和临床试验数据验证预测结果[23]。
单细胞RNA测序数据与PPI网络的整合也为功能模块识别提供了新的视角。scPPIN方法通过聚类单细胞RNA测序数据、识别差异表达基因、构建节点加权的PPI网络,并利用Steiner树算法识别最大权重的连通子图。这种方法在分析不同转录状态下的功能模块时表现出色,能够识别出非差异表达但具有关键生物学功能的蛋白质,从而揭示出标准差异表达基因分析无法发现的生物学信息[24]。
可以看出,聚类算法在识别蛋白质功能模块方面具有显著优势。密度聚类、图聚类、进化聚类、链路聚类和单细胞数据整合方法各有特点,能够在不同场景下提高预测准确率。这些方法的共同优势在于能够有效识别PPI网络中的功能模块,并在去除噪声数据和整合多源信息方面表现出色,为蛋白质功能预测提供了有力支持。
2.3 深度学习与机器学习在PPI网络中的应用近年来,深度学习与机器学习在PPI网络中的应用已成为蛋白质功能预测领域的重要研究方向。传统的机器学习方法,如支持向量机(SVM)、随机森林(RF)和梯度提升决策树(GBDT),已被广泛应用于PPI网络的功能预测。这些方法通常依赖于手工提取的特征,如蛋白质序列的组成、过渡和分布特征,以及通过自协方差(AC)或自交叉协方差(ACC)等方法获得的序列特征。这些特征被输入到分类器中,以预测蛋白质之间的功能关联。
随着深度学习技术的发展,其在PPI网络功能预测中的潜力也逐渐显现。深度学习模型能够自动进行特征提取,减少了对手工特征的依赖,从而提高了预测的准确性和效率。例如,DNN-PPI框架通过结合卷积神经网络(CNN)和长短期记忆网络(LSTM),从蛋白质的原始序列中自动学习特征。该模型在多个物种的PPI数据集上表现出色,准确率高达98.78%,显著优于传统方法[31]。此外,DCSE(Double-Channel-Siamese-Ensemble)模型通过多层卷积神经网络(MCN)和多层双向门控循环单元(MBC)从局部和全局视角提取特征,进一步提高了预测性能[33]。SDNN-PPI则引入了自注意力机制,增强了模型对关键特征的关注能力,提升了预测的准确性。
图神经网络(GNN)作为深度学习的一种重要形式,因其能够直接处理图结构数据而受到广泛关注。在PPI网络中,蛋白质被视为图中的节点,相互作用作为边,GNN能够利用网络的拓扑结构和节点属性进行功能预测。这种方法不仅考虑了蛋白质的个体特征,还考虑了其在网络中的位置和邻居信息,从而更全面地捕捉蛋白质的功能信息。例如,MARPPI模型通过多尺度架构残差网络,结合伪氨基酸组成、自相关描述符和多元互信息等多种特征,显著提高了PPI预测的准确性[35]。
尽管深度学习模型在PPI网络的功能预测中表现出色,但仍面临一些挑战。过拟合和模型泛化能力的问题在大多数深度学习模型中尚未得到充分解决。此外,PPI网络的不完整性和噪声数据也会影响模型的预测性能。因此,未来的研究需要进一步优化模型结构,提高模型的鲁棒性和泛化能力,同时探索多源数据融合策略,以提升预测的准确性和可靠性。
可以看出,深度学习和机器学习技术的引入,为PPI网络的功能预测带来了新的突破。随着算法的不断演进和数据的持续积累,这些方法在蛋白质功能研究中的应用前景十分广阔。
2.4 动态PPI网络建模与预测动态PPI网络建模与预测是近年来蛋白质功能研究中的重要方向,其核心在于通过整合多源数据(如基因表达谱)构建能够反映蛋白质相互作用动态变化的网络模型,并利用这些模型进行功能预测。与传统的静态PPI网络相比,动态PPI网络能够更准确地捕捉蛋白质在不同时间点或不同生理条件下的相互作用模式,从而提升功能预测的精度和生物学意义。
动态PPI网络的构建通常基于基因表达数据与静态PPI网络的整合。例如,Ref_36提出了一种基于动态加权PPI网络的必需蛋白质预测方法(DWE),通过从基因表达数据中提取蛋白质的动态信息,并结合静态PPI网络构建动态PPI网络。该方法利用GO术语相似性对蛋白质间的相互作用进行加权,通过计算蛋白质与其动态加权边连接的总和与包含该蛋白质的时间网络数量的比值来评估蛋白质的重要性,从而提高了必需蛋白质预测的准确性[36]。类似地,Ref_37提出了一种基于“核心-附件”结构特征的算法,用于从动态加权PPI网络中预测蛋白质复合物。该方法结合了不同时间点的基因表达数据与静态PPI网络,构建了多个动态子网络,并通过主成分分析和语义相似性过滤数据噪声,从而提升了蛋白质复合物检测的性能[37]。
动态PPI网络的另一个关键在于动态子网络的划分。Ref_42提出了一种改进的动态蛋白网络构建算法,基于进化图模型将整个蛋白网络划分为多个时间片的动态子网,并根据蛋白质之间的连接强度确定子网间的相互作用关系,从而获得全局动态蛋白网络。这种方法不仅提高了网络的鲁棒性,还增强了功能预测的准确性[42]。此外,Ref_45提出了一种基于核心-附件结构的动态蛋白复合物识别方法(CO-DPC),该方法首先根据基因表达谱和3-sigma原则选择活性蛋白,并基于共表达原则和PPI网络构建动态PPI网络。CO-DPC通过检测局部密集子图作为蛋白复合物的核心,并将这些核心的邻近节点附加到核心上以形成完整的蛋白复合物。实验结果表明,CO-DPC在酵母PPI网络上的表现优于现有方法,且识别出的动态蛋白复合物具有更高的生物学意义[45]。
在动态PPI网络的功能预测方面,Ref_43提出了一种基于花粉授粉机制的改进算法(IFPA),用于在多关系重构的动态PPI网络中识别蛋白复合物。IFPA通过引入“共必需性”概念,结合异构拓扑和生物信息,构建了多关系重构的动态PPI网络,并基于花粉授粉机制模拟花粉寻找最佳授粉植物的过程,将外围节点附加到相应的核心上以形成蛋白复合物。实验结果表明,IFPA在DIP、MIPS和Krogan三个数据集上的表现优于其他代表性方法,具有更强的鲁棒性和预测能力[43]。此外,Ref_44提出了一种基于大象群优化方法的马尔可夫聚类算法(DMCL-EHO),该方法通过将PPI网络划分为多个动态子网络,并结合基因表达数据进行聚类分析,显著提高了蛋白复合物检测的准确性。DMCL-EHO利用大象群优化方法减少了不必要的噪声数据,从而降低了计算时间和复杂度,提升了预测效率[44]。
可以看出,动态PPI网络建模为蛋白质功能预测提供了新的视角和方法。通过整合基因表达数据和静态PPI网络,动态网络能够更真实地反映蛋白质相互作用的时空变化,从而提高预测的准确性和生物学相关性。未来的研究有望借助人工智能和大数据分析技术,进一步优化动态网络的建模方法,推动蛋白质功能预测领域的持续发展。
3. 多源数据整合与网络集成方法3.1 多源生物数据的融合策略在蛋白质功能预测领域,整合多源生物数据已成为提升预测精度和覆盖范围的重要策略。随着高通度技术的发展,蛋白质序列、基因表达数据、共表达网络、蛋白质-蛋白质相互作用(PPI)网络等多种类型的数据得以获取,为更全面地理解蛋白质功能提供了丰富的信息来源。然而,不同数据源具有异质性和互补性,如何有效整合这些数据成为研究的关键挑战之一。
一种常见的整合方法是构建多源数据融合模型,通过加权平均或优化策略将不同数据源的信息结合起来。例如,MS-kNN 方法采用 k 近邻算法,基于序列相似性、PPI 数据和基因表达数据计算蛋白质之间的相似性得分,并通过加权融合策略预测未知蛋白的功能。在 CAFA 测试中,MS-kNN 通过整合三种数据源显著提升了预测的 AUC 指标,表明多源数据的融合能够有效提高功能预测的准确性 [49]。类似地,IWA 方法提出了一种基于网络的加权平均策略,将不同数据源建模为无向图,并通过统一的权重评估框架融合多个图结构,从而生成更完整的蛋白质功能网络。该方法不仅提升了预测性能,还具备良好的扩展性,适用于大规模数据集的动态更新 [51]。
除了传统的统计方法,近年来深度学习技术也被广泛应用于多源数据融合。例如,HOPER 框架通过整合蛋白质序列、文献文本和 PPI 网络三类数据,利用自编码器生成统一的蛋白质表示,并通过迁移学习策略在低数据环境下实现高精度的功能预测。实验表明,HOPER 在所有 GO 类别(分子功能、生物过程和细胞组分)上均优于现有方法,尤其在数据稀缺情况下展现出更强的泛化能力 [54]。另一项研究 CFAGO 提出基于注意力机制的跨模态融合方法,将 PPI 网络与蛋白质属性信息进行联合建模,通过多头注意力机制捕捉不同数据源之间的复杂关系。该方法在人类和小鼠数据集上的实验结果显示,其在多个评估指标(如 m-AUPR、M-AUPR 和 Fmax)上均优于现有单物种网络方法 [46]。
此外,一些研究还探索了基于图神经网络(GNN)的多源数据整合策略。例如,NetQuilt 提出了一种跨物种的网络融合方法,通过 IsoRank 相似性评分整合多个物种的 PPI 网络,构建元网络(meta-network)作为输入特征,并利用 Maxout 神经网络进行功能预测。该方法在缺乏目标物种 PPI 网络的情况下仍能保持较高的预测性能,为跨物种功能注释提供了新的思路 [55]。另一项研究 MSF-PFP 则设计了专门的特征提取模块,分别处理蛋白质序列、结构域和 PPI 信息,并通过多源特征融合模块整合这些异构信息,从而提升预测的全面性和鲁棒性。实验结果表明,MSF-PFP 在 BP、MF 和 CC 三个 GO 类别上均取得较高的 FMax 分数 [48]。
可以看出,多源生物数据的融合策略在蛋白质功能预测中展现出显著优势。通过整合序列、表达、网络等多种数据类型,不仅可以弥补单一数据源的局限性,还能提升模型对功能术语之间复杂关系的建模能力。未来,随着人工智能和大规模数据处理技术的发展,多模态学习和跨物种迁移学习将成为进一步提升功能预测精度的重要方向。
3.2 基于网络集成的功能预测算法在融合多源生物数据的基础上,基于网络集成的功能预测算法近年来已成为解决蛋白质功能注释不平衡、多源数据整合和预测精度提升的关键方法之一。这类算法通过融合多个异构生物网络(如共表达网络、物理相互作用网络、共享结构域网络等),构建功能特异性的综合网络,从而更准确地推断未知蛋白质的功能。其中,GeneMANIA 和 UNIPred 是两个具有代表性的网络集成方法,它们在处理数据不平衡和提升预测性能方面展现了显著优势。
GeneMANIA 是一种实时多关联网络集成算法,能够高效整合多种功能关联网络并预测基因功能 [57]。其核心思想是通过岭回归启发式算法,为每个输入网络分配一个功能特异性的权重,从而构建一个加权平均的综合网络。随后,利用标签传播算法从该综合网络中进行功能预测。GeneMANIA 的一大优势在于其运行效率高,能够在平均不到10秒的时间内完成预测任务,适用于大规模基因组的实时预测。此外,该方法对冗余和无关数据具有较强的鲁棒性,并在 MouseFunc I 和酵母功能预测基准测试中表现出与当前领先方法相当甚至更优的预测精度。
相比之下,UNIPred 则更专注于处理功能注释的不平衡问题。由于大多数功能类别中已注释的蛋白质数量远少于未注释的蛋白质,导致正负样本分布极不平衡,传统的预测方法在这种情况下容易偏向多数类。UNIPred 通过为每个输入网络计算功能特异性信息量评分,并在集成和预测过程中均考虑正样本稀缺性,从而有效缓解数据不平衡带来的偏差 [56]。此外,UNIPred-Web 作为其网络可视化与分析的在线平台,进一步增强了用户的交互性和结果的可解释性,支持多种生物网络类型的上传与整合,并提供功能预测结果的图形化展示。
这两类方法的一个共同特点是它们都强调功能特异性网络集成的重要性。即,针对每一个功能类别(如 GO 术语)分别构建综合网络,而不是采用统一的网络结构进行所有功能预测。这种策略不仅能够捕捉不同功能类别下网络信息的差异性,也有助于提升预测模型的敏感性和特异性。
从整体趋势来看,基于网络集成的功能预测算法通过有效整合多源异构数据,在应对数据不平衡、提升预测准确性以及增强模型可解释性方面展现出巨大潜力。未来,随着更多高质量生物网络数据的积累和深度学习技术的引入,网络集成方法有望在蛋白质功能预测领域发挥更加核心的作用。
3.3 文献与共现数据的利用在多源数据整合和网络集成的基础上,文献共现和摘要文本挖掘也成为蛋白质功能预测中不可或缺的信息来源。这些方法通过分析蛋白质名称在文献中的共现频率及其语义关系,为构建功能预测模型提供了丰富的补充数据。例如,Ref_58 中指出,将文献共现数据整合到图论功能预测算法中,可以显著提升酵母、果蝇和蠕虫中的预测性能。这种提升不仅来源于新增的交互边,还因为共现数据能够快速将未知蛋白质连接到已充分研究的节点,从而被全局预测算法有效利用。此外,Ref_58 还提出了一种新的共现可靠性量化方法,在阈值设置为约10%时,能够在覆盖率和准确性之间取得最佳平衡。
除了共现频率,语义信息的挖掘同样重要。Ref_60 提出的信息抽取系统 PPFBM 通过分析蛋白质与其结合分子在文献中的语义共现关系,来预测未注释蛋白质的功能。该系统利用新型的语义规则和语言学理论,从句子的语法结构中识别蛋白质与分子之间的语义关联,从而更准确地提取功能相关性。这种基于语义的共现分析方法在预测精度上显著优于传统的依存句法分析方法,后者往往忽略了术语间的语义关系,仅关注结构关系。
此外,Ref_59 进一步扩展了共现分析的应用,通过量化 GO 术语在文献和注释中的共现频率,设计了两种功能一致性评分。这些评分能够识别功能一致的蛋白质集合,如通路中的蛋白质、共定位蛋白质和蛋白质复合物,并能够准确地将蛋白质分配到其相应的通路中。该研究还表明,功能一致性评分在检测相互作用蛋白质对方面具有良好的判别能力,显示出其在功能预测中的广泛适用性。
为了提高共现数据的可靠性,Ref_58 还比较了几种不同的共现置信度量化方法,包括基于超几何分布的方法和互信息方法。研究发现,传统的“只要至少一篇摘要提到两个蛋白质”这一共现断言方法引入了过多的假阳性,而基于阈值的加权共现方法则在性能上表现更优。这种对共现数据的精细化处理,有助于提升预测模型的准确性和鲁棒性。
在整合文献共现数据到预测模型的过程中,还需考虑数据的偏倚问题。Ref_58 指出,文献共现数据通常偏向于已广泛研究的基因,这可能导致对功能未知蛋白的预测能力受限。然而,由于文献数据的快速增长,这一资源对于几乎所有研究生物体来说都是可获得的,尤其是在蛋白质相互作用数据库较小的物种中,共现数据能够提供关键的连接信息。
从现有研究可以看出,文献共现和文本挖掘技术在蛋白质功能预测中扮演着不可或缺的角色。它们不仅能够补充传统的蛋白质相互作用数据,还能通过语义分析揭示更深层次的功能关联。未来,随着自然语言处理技术的进步和大规模文献数据的积累,基于文献的功能预测方法有望在蛋白质功能注释中发挥更大的作用。
4. 基于结构与序列的功能预测方法4.1 蛋白质结构预测与功能推断蛋白质结构预测与功能推断是生物信息学中的重要研究领域,其核心目标是通过蛋白质的三维结构信息推断其生物学功能。近年来,随着深度学习和结构预测技术的快速发展,基于结构预测的功能注释方法已成为研究热点。例如,FINDSITE和TASSER等方法通过整合结构预测与功能模板识别,显著提高了蛋白质功能预测的准确性。
TASSER(Threading ASSembly Refinement)是一种经典的蛋白质结构预测工具,它结合了模板识别和从头组装策略,能够生成高质量的蛋白质三维结构模型。基于TASSER的结构预测结果,COFACTOR方法进一步实现了功能注释的自动化。COFACTOR通过检测结构模板中的功能位点,并结合序列相似性和蛋白质-蛋白质相互作用网络信息,为功能未知的蛋白质提供分子功能(MF)、生物过程(BP)和细胞组分(CC)的注释。研究表明,TASSER/COFACTOR组合在基准测试中表现出较高的预测精度,尤其在缺乏序列同源模板的情况下,结构模板检测对功能注释的敏感性和精确性有显著提升[61]。
此外,FINDSITE方法则专注于通过结构相似性来识别功能位点。该方法利用结构比对技术,将目标蛋白的三维结构与已知功能的蛋白质结构数据库进行比对,从而预测其可能的功能位点。这种方法在识别酶活性位点、配体结合位点等方面具有较高的灵敏度,为功能注释提供了重要的结构线索。
结构信息在功能注释中的优势在于其保守性。相比于序列,蛋白质结构在进化过程中更为保守,因此即使在序列相似性较低的情况下,结构相似性仍可为功能预测提供可靠依据。例如,QAUST(Quantitative Annotation of Unknown STructure)方法结合了全局和局部结构相似性搜索、蛋白质相互作用网络以及功能序列基序检测,通过共识平均策略整合多源信息进行功能预测。QAUST在CAFA基准测试中表现优异,尤其在酶功能(EC编号)预测方面显著优于传统的序列相似性搜索方法[62]。
近年来,深度学习技术的引入进一步推动了结构预测与功能注释的融合。CLEAN-Contact框架结合了蛋白质语言模型(ESM-2)和计算机视觉模型(ResNet50),通过对比学习策略整合氨基酸序列和接触图谱信息,实现了对酶功能的高精度预测。该方法在多个基准数据集上均表现出优于现有模型的性能,为基于结构的功能注释提供了新的思路[64]。
可以看出,基于结构预测的功能推断方法在蛋白质功能研究中具有重要作用。随着结构预测精度的提高和多模态数据整合策略的发展,未来基于结构的功能注释将更加准确和全面,为生物医学研究和药物开发提供有力支持。
4.2 序列相似性与进化信息的应用序列相似性与进化信息的应用
蛋白质功能预测中,基于序列相似性和进化信息的方法因其高效性和广泛适用性,长期以来在生物信息学领域占据重要地位。这些方法利用已知功能的蛋白质序列与目标蛋白质之间的相似性或进化关系,推断其可能的功能。其中,BLAST和PSI-BLAST等序列相似性搜索工具在功能注释中被广泛应用,而EFICAz2等基于进化信息的算法则通过整合多序列比对和进化谱特征,进一步提升预测性能。
BLAST(Basic Local Alignment Search Tool)是最早被广泛应用的序列相似性搜索工具之一,其核心思想是通过局部比对算法快速识别与目标序列高度相似的已知功能蛋白质序列。尽管BLAST在功能预测中具有较高的敏感性,尤其在处理具有较高序列相似性的同源蛋白时表现优异,但其在远源同源蛋白的功能预测中存在局限性。为了克服这一问题,PSI-BLAST(Position-Specific Iterated BLAST)引入了位置特异性评分矩阵(PSSM),通过迭代搜索构建进化谱,从而更准确地识别远源同源关系。这种方法在提高功能预测覆盖率方面表现突出,尤其适用于缺乏高相似性序列的蛋白质功能推断。
在进化信息的整合方面,EFICAz2是一个典型的代表。该方法通过多序列比对构建进化谱,并结合保守位点分析和功能位点预测模型,显著提高了功能预测的准确性。EFICAz2不仅利用了序列相似性,还进一步考虑了进化过程中保守的功能残基,从而在预测催化活性位点和结合位点方面具有独特优势。研究表明,EFICAz2在多个功能类别(如酶活性、结合功能等)的预测中均优于传统的BLAST方法,尤其是在远源同源蛋白的功能注释中表现更为稳健。
此外,Ref_72中的研究对BLAST、SVM、PNN和KNN四种常用的功能预测方法进行了系统比较,发现BLAST在敏感性方面表现优异,尤其在识别具有已知功能的同源蛋白方面具有较高的召回率。然而,该研究也指出,BLAST的高敏感性伴随着较高的假阳性率,而基于机器学习的方法(如SVM、PNN和KNN)能够在一定程度上降低假发现率[72]。这表明,尽管序列相似性方法在功能预测中具有基础性作用,但其与机器学习方法的结合可进一步优化预测性能,尤其是在处理复杂功能注释任务时。
Ref_70中提出的BioSeq-Diabolo平台则展示了如何将自然语言处理(NLP)中的语义分析技术引入生物序列相似性分析。该平台通过将生物序列视为“生命之书”的语句,并利用语义相似性分析方法挖掘潜在的功能关联,显著提升了蛋白质远源同源检测和功能注释的准确性[70]。这种方法不仅突破了传统序列比对的局限性,还为整合序列相似性和进化信息提供了新的视角。
可以观察到,基于序列相似性和进化信息的功能预测方法在不同应用场景中各具优势。BLAST和PSI-BLAST适用于快速识别同源蛋白的功能,而EFICAz2等进化信息整合方法则在远源同源蛋白的功能注释中表现更为优异。此外,结合自然语言处理和语义分析的新方法(如BioSeq-Diabolo)为未来功能预测提供了创新性的技术路径。这些方法的互补性表明,通过多源信息整合和算法优化,可以进一步提升蛋白质功能预测的准确性和适用性。
4.3 结构-功能关联分析结构-功能关联分析是蛋白质功能预测中的关键环节,旨在通过解析蛋白质的三维结构来识别关键残基、活性位点和结合位点等与功能密切相关的重要区域。这一分析不仅有助于揭示蛋白质分子层面的功能机制,还能为药物设计和蛋白质工程提供重要指导。
近年来,随着蛋白质结构数据的不断积累,多种基于结构的功能特征识别方法相继被提出。例如,PACKMAN 和 Dynamic Community Identifier (DCI) 等计算方法通过分析蛋白质的动态特性,识别出与功能相关的铰链残基和协同运动区域,从而揭示蛋白质结构在功能执行中的动态变化机制 [74]。这些方法利用弹性网络模型(ENM)进行正常模式分析,捕捉蛋白质的集体运动特征,为理解变构效应和功能域划分提供了新的视角。
此外,基于图神经网络(GNN)的方法也在结构-功能关联分析中展现出强大潜力。ProDAR 模型通过引入动态信息增强蛋白质图表示,利用正常模式分析(NMA)识别动态相关残基对,并在图结构中建立新的连接边,从而提升功能残基识别的准确性和可解释性 [75]。该方法通过 Grad-CAM 技术可视化功能激活区域,成功识别出与底物结合和催化活性密切相关的关键残基。例如,在 hMTH1 和 SARS-CoV-2 受体结合域的研究中,ProDAR 能够准确捕捉动态指纹,揭示功能影响残基的分布特征。
在结构特征的深度学习建模方面,COLLAPSE 框架提出了一种基于结构环境的自监督学习方法,通过压缩潜在空间表示蛋白质局部结构位点,并利用同源蛋白的进化关系作为训练信号,实现对功能位点的高效识别 [76]。该方法在多个任务中表现出色,包括蛋白质-蛋白质相互作用预测、突变稳定性评估以及 Prosite 数据库中功能位点的预测。COLLAPSE 的优势在于其能够跨任务迁移学习,同时具备计算高效性和可解释性,为大规模功能位点注释提供了新工具。
PersGNN 模型则结合拓扑数据分析和几何深度学习,通过构建蛋白质结构的持久同源图(persistence diagram)来捕捉局部和全局结构特征 [73]。该方法利用图神经网络和持久同源网络(PersNet)融合结构信息,显著提升了功能预测的AUPR和F1分数。PersGNN 的成功表明,结构的拓扑特征(如通道和空腔)在功能预测中具有重要价值,尤其在基因本体(GO)分类中表现出良好的迁移能力。
由此可见,结构-功能关联分析正逐步从静态结构描述转向动态特征建模,并借助深度学习方法实现更精准的功能位点识别。这些方法不仅提升了功能预测的准确性,还为理解蛋白质功能的结构基础提供了多维度的分析工具。未来的发展方向可能包括更精细的动态建模、多尺度结构特征融合以及结合人工智能的大规模结构功能映射。
5. 多标签分类与功能互关系建模5.1 多标签分类框架蛋白质功能预测作为多标签分类问题的建模方法,近年来在生物信息学领域取得了显著进展。由于蛋白质可以同时参与多个生物学过程、具备多种分子功能,并存在于不同的细胞组分中,其功能预测本质上是一个多标签分类任务。在这种建模框架下,每个蛋白质可以被分配多个基因本体(Gene Ontology, GO)术语作为其功能标签,而这些标签之间通常具有复杂的层级结构和语义关系。
传统的多标签分类方法如布尔矩阵分解(Boolean Matrix Factorization, BMF)被用于蛋白质功能预测,以挖掘功能标签与蛋白质特征之间的潜在关联。BMF方法通过将高维标签矩阵分解为低秩矩阵,揭示蛋白质与功能之间的潜在结构,从而提升预测的准确性与泛化能力。此外,该方法能够有效处理大规模多标签数据,尤其适用于标签高度稀疏的情况,这在蛋白质功能预测中非常常见。
然而,由于GO术语之间存在明确的层级结构,直接使用传统的多标签分类方法可能会忽略这些重要的语义关系。因此,层级分类(Hierarchical Classification, HC)策略被广泛引入到蛋白质功能预测中。这类方法不仅考虑了每个GO术语的预测,还利用其在GO层次结构中的位置信息,以确保预测结果在语义上的一致性。例如,NetGO和NetGO 2.0在建模过程中引入了学习排序(Learning to Rank, LTR)框架,将功能预测问题转化为一个层级排序任务,从而有效整合了序列、网络、文本等多源信息 [79]。
进一步地,一些研究提出基于遗传算法(Genetic Algorithms, GAs)的规则归纳方法来处理蛋白质功能预测中的层级多标签分类问题。这类方法通过进化计算生成可解释的规则,不仅提升了预测性能,还增强了模型的可解释性,有助于生物学专家验证预测结果 [81]。此外,PFmulDL方法结合了卷积神经网络(CNN)、递归神经网络(RNN)以及迁移学习策略,显著提升了“稀有类”蛋白质的预测性能,同时保持了“主要类”的预测精度 [82]。
随着研究的深入,蛋白质功能预测的多标签分类框架正逐步从单一标签预测向融合层级结构、语义关系和多源信息的方向发展。这一趋势为开发更加高效、准确且可解释性强的建模策略提供了可能,也为应对日益增长的预测复杂性奠定了基础。
5.2 功能术语之间的互关系建模在蛋白质功能预测中,功能术语之间的互关系建模是提升预测一致性和准确性的关键环节。Gene Ontology(GO)作为标准化的功能注释体系,其层级结构和语义相似性为功能术语间复杂关系的建模提供了重要基础。通过利用这些结构信息,预测方法能够更好地捕捉功能术语之间的依赖性,从而优化多标签分类任务中的预测结果。
GO的层级结构本质上是一个有向无环图(DAG),其中每个功能术语通过“is_a”或“part_of”等关系与其他术语相连。这种结构隐含了功能术语间的上下文依赖性,例如,某个蛋白质若被预测为子类功能,理论上也应具有其父类功能。然而,传统的预测方法往往将功能术语独立处理,忽略了这种层级关联,导致预测结果的不一致。为了解决这一问题,研究者提出了基于层级一致性的后处理策略。例如,FALCON算法通过传播预测概率,确保子类功能的预测结果不会违背其父类功能的预测结果,从而提升预测的一致性。
此外,语义相似性也被广泛用于建模功能术语之间的关系。语义相似性度量方法(如Resnik相似性和Lin相似性)能够量化GO术语之间的功能关联程度,为预测模型提供额外的语义信息支持。这种度量方式不仅有助于识别功能相关的蛋白质,还能在训练过程中引入正则化约束,使预测结果更符合生物学知识。例如,在多标签分类框架中,研究者通过将语义相似性作为损失函数的一部分,引导模型生成更加语义连贯的预测结果。
近年来,深度学习方法也被用于建模GO术语间的复杂关系。例如,一些研究采用图神经网络(GNN)对GO的层级结构进行建模,利用图结构中的邻接信息来传播和聚合功能预测结果。这种方法不仅能够捕捉术语间的直接关系,还能通过多层传播机制学习更复杂的语义依赖。Graph2GO就是一种典型的利用多模态网络嵌入技术整合GO层级信息的方法,其通过图神经网络学习蛋白质的功能表示,并结合GO术语间的语义相似性进一步优化预测结果 [84]。
除了结构和语义层面的建模,一些研究还尝试将功能术语的上下文信息引入预测模型。例如,通过构建术语共现矩阵或使用文本挖掘技术从文献中提取术语间的关系,进一步增强功能术语之间的语义关联。这种方法在处理功能注释不完整或稀疏的情况下尤为有效,因为它能够利用外部知识补充训练数据中的缺失信息。
基于GO层级结构与语义相似性的功能术语互关系建模,已经成为提升多标签分类预测一致性与鲁棒性的重要手段。未来的研究有望在图神经网络和语义推理技术的支持下,实现更精细的功能术语关系建模,从而推动蛋白质功能预测领域的持续发展。
5.3 负样本与不平衡数据处理在蛋白质功能预测中,负样本与不平衡数据的处理是提升模型判别能力的重要环节。由于功能注释数据中正样本(即具有特定功能的蛋白质)通常远少于负样本(即未注释或无特定功能的蛋白质),这种数据分布的不平衡性会导致预测模型倾向于多数类,从而降低对少数类的识别能力。因此,如何有效利用负样本信息并缓解数据不平衡问题成为当前研究的关键挑战之一。
首先,针对数据不平衡问题,许多研究采用了过采样和欠采样策略。例如,usDSM 方法通过比较六种欠采样策略,发现基于聚类中心(cluster centroid)的欠采样方案最为有效,并结合随机森林分类器构建预测模型,显著提升了对有害同义突变的预测性能 [90]。类似地,NonClasGP-Pred 通过生成多个平衡子数据集并采用子集最优特征组合策略,有效减少了预测偏差,并在十折交叉验证中取得了高达100%的灵敏度 [88]。这些方法表明,合理地重构训练数据分布可以显著提升模型的判别能力。
其次,针对负样本的利用,一些研究提出了改进的损失函数来缓解类别不平衡带来的影响。例如,DNAPred 提出了一种基于分离超平面距离的集成欠采样方法(E-HDSVM),结合增强的 AdaBoost 算法(EAdaBoost)来集成多个支持向量机,从而有效缓解过拟合问题并提升预测性能 [85]。此外,iKcr_CNN 引入了焦点损失函数(focal loss),不仅为不同类别分配不同权重,还区分了易分类与难分类样本,从而在不平衡比例为1:4的Kcr数据上取得了更平衡的预测结果 [86]。同样,E2EATP 在其端到端深度学习模型中采用加权焦点损失函数,显著提升了对ATP结合位点的识别能力 [87]。
此外,一些研究还尝试结合多特征融合与集成学习策略来提升模型的泛化能力。GBDT_KgluSite 通过引入多种特征(包括序列、理化性质、结构和进化信息),并采用 NearMiss-3 和 Elastic Net 分别处理数据不平衡与特征冗余问题,最终在五折交叉验证中实现了93.73%的准确率和98.14%的AUC值 [93]。BioSeq_Ksite 则结合自适应注意力机制与新的联合损失函数(SSBCE),在处理不平衡数据方面表现出更强的鲁棒性,其MCC指标相比次优模型提升了7.68% [94]。
总体来看,当前研究在负样本利用与不平衡数据处理方面已取得显著进展。从数据层面的重构到模型层面的损失函数优化,再到特征融合与集成策略的应用,多种方法均在不同程度上提升了预测模型的判别能力。未来,随着深度学习与大模型的发展,如何更有效地结合多源信息与自适应学习策略,将成为进一步提升蛋白质功能预测性能的重要方向。
6. 功能预测的评估与基准测试6.1 评估指标与基准数据集在蛋白质功能预测领域,评估预测模型的性能和可靠性是研究的重要组成部分。为了量化预测结果的准确性,研究人员通常采用一系列评估指标,包括AUC(曲线下面积)、F-score(F1分数)、精确率(Precision)、召回率(Recall)以及准确率(Accuracy)等。其中,AUC广泛用于衡量模型在不同阈值下的分类能力,尤其适用于不平衡数据集;F-score则综合考虑了精确率和召回率,是多标签分类任务中的核心指标之一。此外,为了保证评估的系统性和可比性,多个基准数据集被提出并广泛使用,如CAFA(Critical Assessment of Functional Annotation)和MouseFunc等。这些数据集不仅提供了标准化的训练和测试集,还定义了统一的评估流程,有助于公平比较不同方法的性能。
CAFA是一个长期运行的国际评估平台,旨在推动蛋白质功能预测方法的发展和标准化评估。该平台基于Gene Ontology(GO)术语对蛋白质功能进行注释,并定期发布新的数据集和挑战任务。例如,在CAFA3挑战中,多种计算方法在人类和酵母数据集上进行了系统评估,结果表明基于异质网络传播的方法(如GOHPro)在Fmax指标上显著优于传统方法,显示出其在功能预测中的优越性能 [97]。此外,MouseFunc数据集则专注于小鼠蛋白质的功能预测,强调跨物种功能注释的迁移能力。这些基准数据集的建立,不仅为方法评估提供了统一标准,也促进了跨研究、跨平台的结果比较和方法优化。
近年来,随着深度学习和大规模数据处理技术的发展,多个研究团队提出了新的评估框架以适应不断增长的蛋白质序列数据。例如,BeProf是一个综合性的基准平台,整合了最新的功能注释数据集,并设计了多种应用场景来评估17种最先进的蛋白质功能预测方法。该平台不仅提供了数据预处理工具,还引入了一种新的综合评估指标,使得不同方法在不同应用背景下的性能差异更加清晰可见 [95]。同样,ProFAB平台致力于解决训练集构建和方法评估中的关键问题,提供经过过滤和预处理的数据集,支持基于GO术语和酶编号的功能预测方法训练与评估 [96]。这些平台的出现,标志着蛋白质功能预测评估正朝着更加系统化、标准化和自动化的方向发展。
评估指标与基准数据集在推动蛋白质功能预测研究中起到了关键作用。通过标准化的评估体系,研究者可以更有效地识别方法的优势与不足,从而指导模型的改进与优化。随着数据规模的扩大和算法能力的提升,构建更具挑战性和代表性的评估平台将成为该领域的重要发展方向。
6.2 交叉验证与留一法分析在蛋白质功能预测研究中,模型的验证方法对于评估预测性能和泛化能力至关重要。常用的验证方法包括交叉验证(cross-validation)和留一法(leave-one-out cross-validation, LOOCV),它们在不同实验设置下各有适用性与局限性。
交叉验证是一种广泛使用的模型评估方法,其核心思想是将数据集划分为多个子集,轮流使用其中一部分作为测试集,其余部分作为训练集。常见的划分方式包括五折交叉验证和十折交叉验证。这种方法在数据量有限的情况下能够有效利用所有样本,提高模型评估的稳定性。例如,在蛋白质功能预测任务中,NPF方法采用了十折交叉验证来评估其预测性能,结果显示该方法在多个评价指标上均优于其他竞争方法,表明交叉验证能够有效反映模型在不同数据划分下的表现一致性[98]。此外,交叉验证还能够缓解由于数据分布不均带来的偏差问题,适用于多标签分类和功能互关系建模等复杂场景。
然而,交叉验证的划分方式可能引入一定的随机性,影响结果的可重复性。为了进一步提高评估的精确性,特别是在小规模数据集上,留一法成为一种更为严格的验证方法。在留一法中,每次仅保留一个样本作为测试集,其余所有样本用于训练模型。这种方法能够最大程度地利用数据,避免划分偏差,适用于样本数量较少或类别分布高度不平衡的情况。例如,在lncRNA-蛋白质相互作用预测任务中,IRWNRLPI方法采用留一法验证其模型性能,获得了0.9150的AUC值和0.7138的AUPR值,显示出模型在严格验证下的优异表现[103]。同样,在蛋白质结构域与疾病关联预测研究中,研究人员也采用了留一法进行模型验证,获得了0.94的AUC分数,进一步证明了该方法在高精度预测任务中的有效性[105]。
尽管留一法在评估模型泛化能力方面具有优势,但其计算开销较大,尤其在大规模数据集上可能显著增加训练时间。因此,在实际应用中需权衡验证精度与计算效率。对于高通量预测任务,如RNA结合蛋白与DNA结合蛋白的分类预测,研究者通常采用交叉验证以提高实验效率,同时仍能获得较为稳定的结果[104]。
综上,交叉验证和留一法在蛋白质功能预测模型评估中各有优势。交叉验证适用于数据量较大、实验效率要求较高的场景,而留一法则更适合于小样本、高精度要求的任务。未来的研究应根据具体实验目标和数据特性,灵活选择验证策略,以确保模型评估的科学性与可靠性。
6.3 预测结果的可解释性与后处理在蛋白质功能预测中,预测结果的可解释性与后处理是提升模型实用性和科学意义的重要环节。随着深度学习模型在功能预测中的广泛应用,其预测结果的“黑箱”特性成为阻碍其在生物医学领域落地的关键问题。因此,如何确保预测结果的可解释性、统计置信度以及通过后处理进一步提升预测一致性成为研究热点。
首先,预测结果的统计置信度评估是衡量模型可靠性的重要指标。许多预测方法通过输出概率值或置信区间来表示特定功能注释的可能性。例如,基于图神经网络和蛋白质相互作用网络的模型通常会结合节点的拓扑属性与邻域信息,生成具有统计意义的功能概率分布。此外,一些基于序列的方法,如BLAST和PSI-BLAST,通过比对得分和E值来量化序列相似性对功能预测的支持程度。然而,这些方法往往缺乏对预测结果的全局解释,难以揭示模型决策背后的生物学机制。
为了解决这一问题,近年来出现了一些旨在提升模型可解释性的方法。例如,Ref_108 提出的卷积模体核网络(Convolutional Motif Kernel Networks, CMKN)通过将特征表示学习嵌入到再生核希尔伯特空间(RKHS)中,实现了对预测结果的直接解释。该方法无需依赖后验解释技术(如SHAP或Saliency Maps),而是通过端到端的学习过程,从数据中提取具有生物学意义的概念。CMKN在DNA和蛋白质序列任务中展现出卓越的可解释性和预测性能,为功能预测模型的可信度评估提供了新的思路。
此外,预测结果的后处理技术在提升功能注释的一致性方面也起到了关键作用。其中,FALCON算法作为代表性方法之一,被广泛应用于Gene Ontology(GO)术语的校正与一致性优化。FALCON利用GO的层级结构和语义相似性信息,对预测结果进行逻辑一致性校正,从而减少预测中出现语义冲突或违反层级约束的情况。这一后处理策略在多个基准测试中显著提升了预测结果的生物学合理性。
除了FALCON,一些基于注意力机制的模型也通过可视化注意力权重来增强模型的可解释性。例如,Ref_109 中提出的PTMGPT2模型通过分析模型解码层的注意力图谱,识别出与翻译后修饰(PTM)相关的序列模体,从而揭示模型在识别PTM位点时的关键决策依据。该方法不仅提升了预测的准确性,还为理解蛋白质功能调控机制提供了新的视角。
预测结果的可解释性与后处理方法在蛋白质功能预测中扮演着不可或缺的角色。未来的发展方向应聚焦于将可解释性建模与预测任务深度融合,并结合功能术语的语义结构进行系统性后处理,以提升预测结果的可信度与生物学意义。
7. 未来方向与挑战7.1 人工智能与大模型在功能预测中的潜力人工智能与大模型在功能预测中的潜力正逐渐成为生物信息学领域的核心研究方向。随着深度学习和大规模数据处理能力的提升,蛋白质语言模型(Protein Language Models, PLMs)和图神经网络(Graph Neural Networks, GNNs)等大模型在蛋白质功能预测中展现出显著优势[114]。这些模型能够有效利用大规模未标注蛋白质序列数据,通过自监督学习生成高质量的蛋白质表示,从而提升功能预测的准确性和泛化能力。
蛋白质语言模型是近年来发展迅速的一类AI大模型,其核心思想借鉴了自然语言处理中的预训练技术。通过在数亿级蛋白质序列上进行自监督训练,PLMs能够学习到蛋白质序列中蕴含的深层生物学特征,如序列保守性、结构倾向性和功能关联性。例如,ESM-1b等模型已被证明在功能预测任务中表现出色,其生成的蛋白质嵌入可以有效捕捉序列与功能之间的复杂关系[114]。研究表明,PLMs能够显著提升功能预测的性能,尤其是在处理稀有或特定功能时,其优势更加明显[119]。此外,PLMs的泛化能力使其能够为未标注蛋白质提供可靠的功能推测,从而弥补实验注释的不足[114]。
图神经网络则为整合蛋白质相互作用网络(Protein-Protein Interaction Networks, PPI)和多源生物数据提供了强有力的工具。PPI网络的拓扑结构和节点属性对于理解蛋白质的功能至关重要,而GNNs能够直接在图结构上进行端到端学习,提取网络中的高阶交互模式。例如,PINNACLE模型通过整合多器官单细胞图谱和上下文感知的PPI网络,生成了超过394,760个蛋白质表示,并在组织层次检索和药物效应预测任务中表现出色[113]。这种基于几何深度学习的方法不仅提升了功能预测的准确性,还揭示了蛋白质在不同细胞类型和组织环境中的功能差异。
AI大模型的另一个显著优势在于其对大规模数据建模的能力。传统的功能预测方法通常受限于数据规模和计算复杂度,而AI大模型能够通过分布式训练和高效算法处理海量数据。例如,NetGO 3.0通过整合PLMs生成的蛋白质嵌入和多源信息(如序列、结构、文献数据),显著提升了功能预测的性能[114]。此外,AI大模型还能够通过迁移学习和多任务学习策略,将从大规模数据中学到的通用特征迁移到特定任务中,从而提高小样本或稀有功能的预测能力。
尽管AI大模型在功能预测中展现出巨大潜力,但仍面临一些挑战。例如,如何有效建模功能术语之间的复杂关系、如何处理功能注释的不平衡性以及如何提高预测结果的可解释性,仍然是亟待解决的问题。未来,随着更多高质量蛋白质结构和功能数据的积累,以及AI算法的不断优化,AI大模型将在蛋白质功能预测中发挥更加重要的作用。
7.2 多组学整合与系统生物学视角在蛋白质功能预测领域,多组学数据整合已成为提升预测精度和生物学解释能力的重要趋势。随着高通量测序、蛋白质组学和代谢组学等技术的快速发展,研究人员能够获取涵盖基因组、转录组、蛋白质组和表观组等多层次的生物数据。这些数据的整合不仅有助于揭示蛋白质在不同生物过程中的功能角色,还为系统生物学视角下的功能模块和通路建模提供了坚实基础 [121]。
多组学整合的核心优势在于其能够从多个维度捕捉蛋白质功能的复杂性。例如,基因表达数据可以揭示蛋白质在特定生理或病理条件下的表达模式,而蛋白质-蛋白质相互作用(PPI)网络则提供了功能协作的拓扑结构信息。此外,表观遗传修饰和代谢物水平的变化也为理解蛋白质功能提供了上下文依赖的线索。通过将这些异构数据映射到统一的生物学网络中,研究者可以更全面地识别功能模块和关键调控节点,从而提升功能预测的系统性和可解释性 [123]。
近年来,基于系统生物学的功能模块建模方法在多组学整合中展现出巨大潜力。以图神经网络(GNN)为代表的深度学习模型已被用于构建整合多组学数据的生物网络,并在阿尔茨海默病等复杂疾病的机制研究中取得了突破。例如,一项研究利用基因组、转录组和蛋白质组数据构建了一个功能连接网络,并通过图神经网络识别出与疾病进展高度相关的多组学子网络,为蛋白质功能在疾病背景下的动态变化提供了新的视角 [122]。这种方法不仅提升了预测的准确性,还增强了模型对生物学机制的解释力。
此外,知识引导的学习方法在整合多组学数据中也展现出显著优势。这类方法通过引入功能基因组学、通路数据库(如REACTOME)等先验知识,能够有效缓解数据高维性和样本量不足带来的挑战。例如,一些研究通过将SNP-基因-蛋白之间的功能关系整合进深度学习模型中,成功识别出在复杂疾病中起关键作用的功能模块 [122]。这种系统生物学导向的整合策略,不仅有助于发现弱信号基因,也为功能预测提供了更具生物学意义的解释框架 [123]。
在此基础上,未来的多组学整合研究将进一步探索如何高效融合异构数据,并构建更具动态性和可解释性的功能网络模型,以应对日益复杂的生物学问题。这一方向不仅有望提升预测的准确性,也将为揭示蛋白质功能的多层次调控机制提供新的视角。
7.3 面向未知功能蛋白的预测瓶颈与突破在蛋白质功能预测领域,孤儿蛋白或功能未知蛋白的预测仍是一个极具挑战性的问题。这些蛋白由于缺乏已知功能的同源蛋白或明确的结构信息,使得传统的基于序列相似性或结构预测的方法难以奏效[111]。尽管近年来人工智能和深度学习技术取得了显著进展,例如AlphaFold2在蛋白质结构预测中的突破性表现,但其在功能预测中的直接应用仍存在局限,特别是在处理缺乏功能注释的孤儿蛋白时[124]。
当前的瓶颈主要体现在以下几个方面。首先,孤儿蛋白通常缺乏可参考的同源信息,这使得基于序列比对和进化信息的功能预测方法效果不佳。例如,EFICAz2等依赖于进化信息的预测工具在面对孤儿蛋白时往往无法提供可靠的注释。其次,现有的功能注释数据库如Gene Ontology(GO)中存在大量的注释偏差,许多功能术语仅覆盖了已知功能的蛋白,而对功能未知蛋白的描述能力有限。此外,功能注释的不完整性也导致训练数据的不平衡,影响了机器学习模型的泛化能力。
面对这些挑战,未来的技术突破方向可能包括以下几个方面。首先,发展基于蛋白质语言模型的新型预测方法,通过大规模预训练模型捕捉蛋白质序列中的潜在功能信号。例如,T5-XL-BFD和ProtBERT等模型已经在蛋白质表示学习方面取得了显著进展,它们能够从无标签的蛋白质序列中学习到丰富的语义信息,为功能预测提供了新的可能性[125]。其次,结合多组学数据整合策略,利用基因表达、蛋白质相互作用网络、代谢通路等多源信息提升预测的准确性。这种方法可以通过构建综合的功能关联网络,弥补单一数据源的不足。
此外,基于深度生成模型的蛋白质设计技术也为孤儿蛋白的功能预测提供了新的思路。例如,Chroma和SCUBA等模型能够生成具有特定结构或功能特性的新型蛋白质,为理解蛋白质序列与功能之间的复杂关系提供了实验验证的手段[125]。通过模拟不同功能状态下的蛋白质结构,可以进一步揭示功能未知蛋白的潜在生物学意义。
最后,随着AlphaFold2等结构预测工具的广泛应用,结合结构预测与功能注释的联合建模方法将成为未来的研究热点。通过将结构预测结果与功能预测模型相结合,可以更准确地识别蛋白质的功能关键位点,从而提高孤儿蛋白的功能预测能力[124]。
在这些新兴技术的推动下,孤儿蛋白的功能预测有望在未来取得突破性进展。通过结合AI模型、多组学数据整合以及结构预测等多维度方法,研究人员将更有可能揭示这些未知功能蛋白的生物学意义,从而填补当前功能注释的空白。
参考文献[1] Kulmanov Maxat, Guzmán-Vega Francisco J., Roggli Paula Duek, et al. Protein function prediction as approximate semantic entailment[J]. Nature Machine Intelligence,2024,6(2):220-228. doi:10.1038/s42256-024-00795-w
[2] Wang Wenkang, Shuai Yunyan, Zeng Min, et al. DPFunc: accurately predicting protein function via deep learning with domain-guided structure information[J]. Nature Communications,2025,16(1):. doi:10.1038/s41467-024-54816-8
[3] Wang Yizhen, Zhang Yanyun, Zhan Xuhui, et al. Machine learning for predicting protein properties: A comprehensive review[J]. Neurocomputing,2024,597:128103-128103. doi:10.1016/j.neucom.2024.128103
[4] Jang Yaan J., Qin Qi-Qi, Huang Si-Yu, et al. Accurate prediction of protein function using statistics-informed graph networks[J]. Nature Communications,2024,15(1):. doi:10.1038/s41467-024-50955-0
[5] Varadi Mihaly, Bordin Nicola, Orengo Christine, et al. The opportunities and challenges posed by the new generation of deep learning-based protein structure predictors. Current Opinion in Structural Biology,2023,79:102543-102543. doi:10.1016/j.sbi.2023.102543
[6] Muzio Giulia, O’Bray Leslie, Borgwardt Karsten. Biological network analysis with deep learning[J]. Briefings in Bioinformatics,2020,22(2):1515-1530. doi:10.1093/bib/bbaa257
[7] Kouba Petr, Kohout Pavel, Haddadi Faraneh, et al. Machine Learning-Guided Protein Engineering[J]. ACS Catalysis,2023,13(21):13863-13895. doi:10.1021/acscatal.3c02743
[8] Li Shiwei, Wu Sanan, Wang Lin, et al. Recent advances in predicting protein–protein interactions with the aid of artificial intelligence algorithms. Current Opinion in Structural Biology,2022,73:102344-102344. doi:10.1016/j.sbi.2022.102344
[9] Kiouri Despoina P., Batsis Georgios C., Chasapis Christos T.. Structure-Based Approaches for Protein–Protein Interaction Prediction Using Machine Learning and Deep Learning. Biomolecules,2025,15(1):141-141. doi:10.3390/biom15010141
[10] Pearce Robin, Zhang Yang. Deep learning techniques have significantly impacted protein structure prediction and protein design. Current Opinion in Structural Biology,2021,68:194-207. doi:10.1016/j.sbi.2021.01.007
[11] Gong Fangping, Cao Di, Qu Chengxin, et al. Advances in the elucidation of nuclear proteins in the model plant Arabidopsis thaliana: based on protein interactions and bioinformatics analysis[J]. Journal of Plant Interactions,2021,16(1):481-493. doi:10.1080/17429145.2021.1998681
[12] Aparna Elangovan,, Melissa Davis,, Karin Verspoor,. Assigning function to protein-protein interactions: a weakly supervised BioBERT based approach using PubMed abstracts. arXiv (Cornell University),2020,. doi:10.48550/arxiv.2008.08727
[13] Chen Shaw-Ji, Liao Ding-Lieh, Chen Chia-Hsiang, et al. Construction and Analysis of Protein-Protein Interaction Network of Heroin Use Disorder[J]. Scientific Reports,2019,9(1):. doi:10.1038/s41598-019-41552-z
[14] 王浩, 王春晴, 陈瑞冰. 结合亲和质谱与生物信息学分析构建TP53BP1的蛋白相互作用网络[J]. 中国科学:生命科学,2018,(02):126-133.
[15] Choi Miri, Baek Jiyeon, Han Sang-Bae, et al. Facile analysis of protein-protein interactions in living cells by enriched visualization of the p-body[J]. BMB Reports,2018,51(10):526-531. doi:10.5483/bmbrep.2018.51.10.051
[16] Liu Quanya, Chen Peng, Wang Bing, et al. dbMPIKT: a database of kinetic and thermodynamic mutant protein interactions[J]. BMC Bioinformatics,2018,19(1):. doi:10.1186/s12859-018-2493-7
[17] Gosset Simon, Glatigny Annie, Gallopin Mélina, et al. APPINetwork: an R package for building and computational analysis of protein–protein interaction networks[J]. PeerJ,2022,10:e14204-e14204. doi:10.7717/peerj.14204
[18] Hanggara Faruq Sandi, Anam Khairul. Sequence-based protein-protein interaction prediction using greedy layer-wise training of deep neural networks. AIP conference proceedings,2020,2288:020050-020050. doi:10.1063/5.0014721
[19] Paramasivam Oviya Revathi, Gopisetty Gopal, Subramani Jayavelu, et al. Expression and affinity purification of recombinant mammalian mitochondrial ribosomal small subunit (MRPS) proteins and protein–protein interaction analysis indicate putative role in tumourigenic cellular processes. The Journal of Biochemistry,2021,169(6):675-692. doi:10.1093/jb/mvab004
[20] Zhang Li, Chen Shaokun, Zeng Xixi, et al. Revealing the pathogenic changes of PAH based on multiomics characteristics[J]. Journal of Translational Medicine,2019,17(1):. doi:10.1186/s12967-019-1981-5
[21] Zhao Zihao, Xu Wenjun, Chen Aiwen, et al. Protein functional module identification method combining topological features and gene expression data[J]. BMC Genomics,2021,22(1):. doi:10.1186/s12864-021-07620-3
[22] Kong Ping, Huang Gang, Liu Wei. Identification of protein complexes and functional modules in E. coli PPI networks[J]. BMC Microbiology,2020,20(1):. doi:10.1186/s12866-020-01904-6
[23] Ma Jun, Wang Jenny, Ghoraie Laleh Soltan, et al. A Comparative Study of Cluster Detection Algorithms in Protein–Protein Interaction for Drug Target Discovery and Drug Repurposing[J]. Frontiers in Pharmacology,2019,10:. doi:10.3389/fphar.2019.00109
[24] Klimm Florian, Toledo Enrique M., Monfeuga Thomas, et al. Functional module detection through integration of single-cell RNA sequencing data with protein–protein interaction networks[J]. BMC Genomics,2020,21(1):. doi:10.1186/s12864-020-07144-2
[25] Cheng Lixin, Zeng Yonglun, Hu Shuai, et al. Systematic prediction of autophagy‐ elated proteins using Arabidopsis thaliana interactome data[J]. The Plant Journal,2020,105(3):708-720. doi:10.1111/tpj.15065
[26] Razdaibiedina Anastasia, Brechalov Alexander, Friesen Helena, et al. PIFiA: self-supervised approach for protein functional annotation from single-cell imaging data[J]. Molecular Systems Biology,2024,20(5):521-548. doi:10.1038/s44320-024-00029-6
[27] Liu Chang, Zhang Xing, Xie Qian, et al. Identification of key proteins and pathways in myocardial infarction using machine learning approaches[J]. Scientific Reports,2025,15(1):. doi:10.1038/s41598-025-04401-w
[28] Mwangi Kennedy W., Macharia Rosaline W., Bargul Joel L.. Gene co-expression network analysis of Trypanosoma brucei in tsetse fly vector[J]. Parasites & Vectors,2021,14(1):. doi:10.1186/s13071-021-04597-6
[29] Higareda-Almaraz Juan Carlos, Karbiener Michael, Giroud Maude, et al. Norepinephrine triggers an immediate-early regulatory network response in primary human white adipocytes[J]. BMC Genomics,2018,19(1):. doi:10.1186/s12864-018-5173-0
[30] Osterhout Robin, Kamal Adeela, Spigelman Samuel. Identification of novel targets in non-muscle invasive bladder cancer: A systems biology approach.. Journal of Clinical Oncology,2019,37(7_suppl):396-396. doi:10.1200/jco.2019.37.7_suppl.396
[31] Li Hang, Gong Xiu-Jun, Yu Hua, et al. Deep Neural Network Based Predictions of Protein Interactions Using Primary Sequences[J]. Molecules,2018,23(8):1923-1923. doi:10.3390/molecules23081923
[32] Casadio Rita, Martelli Pier Luigi, Savojardo Castrense. Machine learning solutions for predicting protein–protein interactions[J]. Wiley Interdisciplinary Reviews Computational Molecular Science,2022,12(6):. doi:10.1002/wcms.1618
[33] Chen Wenqi, Wang Shuang, Song Tao, et al. DCSE:Double-Channel-Siamese-Ensemble model for protein protein interaction prediction[J]. BMC Genomics,2022,23(1):. doi:10.1186/s12864-022-08772-6
[34] Li Xue, Han Peifu, Wang Gan, et al. SDNN-PPI: self-attention with deep neural network effect on protein-protein interaction prediction[J]. BMC Genomics,2022,23(1):. doi:10.1186/s12864-022-08687-2
[35] Li Xue, Han Peifu, Chen Wenqi, et al. MARPPI: boosting prediction of protein–protein interactions with multi-scale architecture residual network[J]. Briefings in Bioinformatics,2022,24(1):. doi:10.1093/bib/bbac524
[36] 杨书新, 鲁纪华, 汤达荣. 基于动态加权PPI网络的关键蛋白质识别算法[J]. 计算机应用研究,2018,(02):53-56+65. doi:10.19734/j.issn.1001-3695.2017.08.0707
[37] Liu Lizhen, Sun Xiaowu, Song Wei, et al. A Method for Predicting Protein Complexes from Dynamic Weighted Protein–Protein Interaction Networks[J]. Journal of Computational Biology,2018,25(6):586-605. doi:10.1089/cmb.2017.0114
[38] Liu Wei, Ma Liangyu, Chen Ling. Identification of Essential Proteins by Using Complexes and Biological Information on Dynamic PPI Network. 2019,127-132. doi:10.1109/cbd.2019.00032
[39] Lei Xiujuan, Liang Jing, Guo Ling. Identify protein complexes based on PageRank algorithm and architecture on dynamic PPI networks[J]. International Journal of Data Mining and Bioinformatics,2019,22(1):350-350. doi:10.1504/ijdmb.2019.101394
[40] SabziNezhad Ali, Jalili Saeed. DPCT: A Dynamic Method for Detecting Protein Complexes From TAP-Aware Weighted PPI Network[J]. Frontiers in Genetics,2020,11:. doi:10.3389/fgene.2020.00567
[41] Li Zeqian, Zhang Yijia, Zhou Peixuan. Temporal Protein Complex Identification Based on Dynamic Heterogeneous Protein Information Network Representation Learning[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics,2024,21(5):1154-1164. doi:10.1109/tcbb.2024.3351078
[42] 李鹏, 闵慧, 罗爱静等. 改进的动态PPI网络构建与蛋白质功能预测算法[J]. 计算机工程,2019,(12):58-65. doi:10.19678/j.issn.1000-3428.0056545
[43] Lei Xiujuan, Fang Ming, Guo Ling, et al. Protein complex detection based on flower pollination mechanism in multi-relation reconstructed dynamic protein networks[J]. BMC Bioinformatics,2019,20(S3):. doi:10.1186/s12859-019-2649-0
[44] Rani R. Ranjani, Ramyachitra D., Brindhadevi A.. Detection of dynamic protein complexes through Markov Clustering based on Elephant Herd Optimization Approach[J]. Scientific Reports,2019,9(1):. doi:10.1038/s41598-019-47468-y
[45] Xiao Qianghua, Luo Ping, Li Min, et al. A Novel Core‐Attachment–Based Method to Identify Dynamic Protein Complexes Based on Gene Expression Profiles and PPI Networks[J]. PROTEOMICS,2019,19(5):. doi:10.1002/pmic.201800129
[46] Wu Zhourun, Guo Mingyue, Jin Xiaopeng, et al. CFAGO: cross-fusion of network and attributes based on attention mechanism for protein function prediction[J]. Bioinformatics,2023,39(3):. doi:10.1093/bioinformatics/btad123
[47] Meng Jun, Zhang Xin, Luan Yushi. Global Propagation Method for Predicting Protein Function by Integrating Multiple Data Sources[J]. Current Bioinformatics,2016,11(2):186-194. doi:10.2174/1574893611666160125221828
[48] Li Xinhui, Qian Yurong, Hu Yue, et al. MSF-PFP: A Novel Multisource Feature Fusion Model for Protein Function Prediction[J]. Journal of Chemical Information and Modeling,2024,64(5):1502-1511. doi:10.1021/acs.jcim.3c01794
[49] Lan Liang, Djuric Nemanja, Guo Yuhong, et al. MS-k NN: protein function prediction by integrating multiple data sources[J]. BMC Bioinformatics,2013,14(S3):. doi:10.1186/1471-2105-14-s3-s8
[50] Hu Sai, Luo Yingchun, Zhang Zhihong, et al. Protein function annotation based on heterogeneous biological networks[J]. BMC Bioinformatics,2022,23(1):. doi:10.1186/s12859-022-05057-3
[51] Chua Hon Nian, Sung Wing-Kin, Wong Limsoon. An efficient strategy for extensive integration of diverse biological data for protein function prediction[J]. Bioinformatics,2007,23(24):3364-3373. doi:10.1093/bioinformatics/btm520
[52] Meng Jun, Wekesa Jael-Sanyanda, Shi Guan-Li, et al. Protein function prediction based on data fusion and functional interrelationship[J]. Mathematical Biosciences,2016,274:25-32. doi:10.1016/j.mbs.2016.02.001
[53] Wang Boyan, Geng Yangliao, Cheng Xingyi, et al. ProtGO: Universal Protein Function Prediction Utilizing Multi-Modal Gene Ontology Knowledge[J]. Bioinformatics,2025,. doi:10.1093/bioinformatics/btaf390
[54] Serbülent Ünsal,, Sinem Özdemir,, Bünyamin Kasap,, et al. Multi-modal Representation Learning Enables Accurate Protein Function Prediction in Low-Data Setting. arXiv (Cornell University),2024,. doi:10.48550/arxiv.2412.08649
[55] Barot Meet, Gligorijević Vladimir, Cho Kyunghyun, et al. NetQuilt: deep multispecies network-based protein function prediction using homology-informed network similarity[J]. Bioinformatics,2021,37(16):2414-2422. doi:10.1093/bioinformatics/btab098
[56] Perlasca Paolo, Frasca Marco, Ba Cheick Tidiane, et al. UNIPred-Web: a web tool for the integration and visualization of biomolecular networks for protein function prediction[J]. BMC Bioinformatics,2019,20(1):. doi:10.1186/s12859-019-2959-2
[57] Mostafavi Sara, Ray Debajyoti, Warde-Farley David, et al. GeneMANIA: a real-time multiple association network integration algorithm for predicting gene function[J]. Genome biology,2008,9(S1):. doi:10.1186/gb-2008-9-s1-s4
[58] Gabow Aaron P, Leach Sonia M, Baumgartner William A, et al. Improving protein function prediction methods with integrated literature data[J]. BMC Bioinformatics,2008,9(1):. doi:10.1186/1471-2105-9-198
[59] Chitale Meghana, Palakodety Shriphani, Kihara Daisuke. Quantification of protein group coherence and pathway assignment using functional association[J]. BMC Bioinformatics,2011,12(1):. doi:10.1186/1471-2105-12-373
[60] Taha Kamal, Yoo Paul D.. Predicting the functions of a protein from its ability to associate with other molecules[J]. BMC Bioinformatics,2016,17(1):. doi:10.1186/s12859-016-0882-3
[61] Zhang Chengxin, Wei Xiaoqiong, Omenn Gilbert S., et al. Structure and Protein Interaction-Based Gene Ontology Annotations Reveal Likely Functions of Uncharacterized Proteins on Human Chromosome 17[J]. Journal of Proteome Research,2018,17(12):4186-4196. doi:10.1021/acs.jproteome.8b00453
[62] Smaili Fatima Zohra, Tian Shuye, Roy Ambrish, et al. QAUST: Protein Function Prediction Using Structure Similarity, Protein Interaction, and Functional Motifs[J]. Genomics Proteomics & Bioinformatics,2021,19(6):998-1011. doi:10.1016/j.gpb.2021.02.001
[63] Bayly-Jones Charles, Whisstock James C.. Mining folded proteomes in the era of accurate structure prediction. PLoS Computational Biology,2022,18(3):e1009930-e1009930. doi:10.1371/journal.pcbi.1009930
[64] Yang Yuxin, Jerger Abby, Feng Song, et al. Improved enzyme functional annotation prediction using contrastive learning with structural inference[J]. Communications Biology,2024,7(1):. doi:10.1038/s42003-024-07359-z
[65] Aprahamian Melanie L., Lindert Steffen. Utility of Covalent Labeling Mass Spectrometry Data in Protein Structure Prediction with Rosetta[J]. Journal of Chemical Theory and Computation,2019,15(5):3410-3424. doi:10.1021/acs.jctc.9b00101
[66] Santos Anne Caroline Mascarenhas dos, Julian Alexander Thomas, Pombert Jean-François. The Rad9–Rad1–Hus1 DNA Repair Clamp is Found in Microsporidia[J]. Genome Biology and Evolution,2022,14(4):. doi:10.1093/gbe/evac053
[67] Sim Jiho, Kwon Sohee, Seok Chaok. HProteome-BSite: predicted binding sites and ligands in human 3D proteome[J]. Nucleic Acids Research,2022,51(D1):D403-D408. doi:10.1093/nar/gkac873
[68] Zheng Wei, Wuyun Qiqige, Zhou Xiaogen, et al. LOMETS3: integrating deep learning and profile alignment for advanced protein template recognition and function annotation[J]. Nucleic Acids Research,2022,50(W1):W454-W464. doi:10.1093/nar/gkac248
[69] Kulmanov Maxat, Zhapa-Camacho Fernando, Hoehndorf Robert. DeepGOWeb: fast and accurate protein function prediction on the (Semantic) Web[J]. Nucleic Acids Research,2021,49(W1):W140-W146. doi:10.1093/nar/gkab373
[70] Li Hongliang, Liu Bin. BioSeq-Diabolo: Biological sequence similarity analysis using Diabolo. PLoS Computational Biology,2023,19(6):e1011214-e1011214. doi:10.1371/journal.pcbi.1011214
[71] Price Morgan N., Arkin Adam P.. Interactive Analysis of Functional Residues in Protein Families[J]. mSystems,2022,7(6):. doi:10.1128/msystems.00705-22
[72] Yu Chun, Li Xiao, Yang Hong, et al. Assessing the Performances of Protein Function Prediction Algorithms from the Perspectives of Identification Accuracy and False Discovery Rate[J]. International Journal of Molecular Sciences,2018,19(1):183-183. doi:10.3390/ijms19010183
[73] Nicolas Swenson,, S. Krishnapriyan, Aditi, Aydin Buluc,, et al. PersGNN: Applying Topological Data Analysis and Geometric Deep Learning to Structure-Based Protein Function Prediction. arXiv (Cornell University),2020,. doi:10.48550/arxiv.2010.16027
[74] Kumar Ambuj. New computational methods to study the relationship between protein structure and function. 2022,. doi:10.31274/td-20240329-537
[75] Chiang Yuan, Hui Wei-Han, Chang Shu-Wei. Encoding protein dynamic information in graph representation for functional residue identification[J]. Cell Reports Physical Science,2022,3(7):100975-100975. doi:10.1016/j.xcrp.2022.100975
[76] Derry Alexander, Altman Russ B.. COLLAPSE: A representation learning framework for identification and characterization of protein structural sites[J]. Protein Science,2022,32(2):. doi:10.1002/pro.4541
[77] Kabir Anowarul, Shehu Amarda. GOProFormer: A Multi-Modal Transformer Method for Gene Ontology Protein Function Prediction. Biomolecules,2022,12(11):1709-1709. doi:10.3390/biom12111709
[78] Kulmanov Maxat, Hoehndorf Robert. DeepPheno: Predicting single gene loss-of-function phenotypes using an ontology-aware hierarchical classifier. PLoS Computational Biology,2020,16(11):e1008453-e1008453. doi:10.1371/journal.pcbi.1008453
[79] You Ronghui, Yao Shuwei, Xiong Yi, et al. NetGO: improving large-scale protein function prediction with massive network information[J]. Nucleic Acids Research,2019,47(W1):W379-W387. doi:10.1093/nar/gkz388
[80] Yao Shuwei, You Ronghui, Wang Shaojun, et al. NetGO 2.0: improving large-scale protein function prediction with massive sequence, text, domain, family and network information[J]. Nucleic Acids Research,2021,49(W1):W469-W475. doi:10.1093/nar/gkab398
[81] Cerri Ricardo, Basgalupp Márcio P., Barros Rodrigo C., et al. Inducing Hierarchical Multi-label Classification rules with Genetic Algorithms[J]. Applied Soft Computing,2019,77:584-604. doi:10.1016/j.asoc.2019.01.017
[82] Xia Weiqi, Zheng Lingyan, Fang Jiebin, et al. PFmulDL: a novel strategy enabling multi-class and multi-label protein function annotation by integrating diverse deep learning methods[J]. Computers in Biology and Medicine,2022,145:105465-105465. doi:10.1016/j.compbiomed.2022.105465
[83] Jain Aashish, Kihara Daisuke. NNTox: Gene Ontology-Based Protein Toxicity Prediction Using Neural Network[J]. Scientific Reports,2019,9(1):. doi:10.1038/s41598-019-54405-6
[84] Fan Kunjie, Guan Yuanfang, Zhang Yan. Graph2GO: a multi-modal attributed network embedding method for inferring protein functions. GigaScience,2020,9(8):. doi:10.1093/gigascience/giaa081
[85] Zhu Yi-Heng, Hu Jun, Song Xiao-Ning, et al. DNAPred: Accurate Identification of DNA-Binding Sites from Protein Sequence by Ensembled Hyperplane-Distance-Based Support Vector Machines[J]. Journal of Chemical Information and Modeling,2019,59(6):3057-3071. doi:10.1021/acs.jcim.8b00749
[86] Dou Lijun, Zhang Zilong, Xu Lei, et al. iKcr_CNN: A novel computational tool for imbalance classification of human nonhistone crotonylation sites based on convolutional neural networks with focal loss[J]. Computational and Structural Biotechnology Journal,2022,20:3268-3279. doi:10.1016/j.csbj.2022.06.032
[87] Rao Bing, Yu Xuan, Bai Jie, et al. E2EATP: Fast and High-Accuracy Protein–ATP Binding Residue Prediction via Protein Language Model Embedding[J]. Journal of Chemical Information and Modeling,2023,64(1):289-300. doi:10.1021/acs.jcim.3c01298
[88] Wang Chao, Wu Jin, Xu Lei, et al. NonClasGP-Pred: robust and efficient prediction of non-classically secreted proteins by integrating subset-specific optimal models of imbalanced data[J]. Microbial Genomics,2020,6(12):. doi:10.1099/mgen.0.000483
[89] Dou Lijun, Yang Fenglong, Xu Lei, et al. A comprehensive review of the imbalance classification of protein post-translational modifications[J]. Briefings in Bioinformatics,2021,22(5):. doi:10.1093/bib/bbab089
[90] Tang Xi, Zhang Tao, Cheng Na, et al. usDSM: a novel method for deleterious synonymous mutation prediction using undersampling scheme[J]. Briefings in Bioinformatics,2021,22(5):. doi:10.1093/bib/bbab123
[91] Cong Hanhan, Liu Hong, Cao Yi, et al. Multiple Protein Subcellular Locations Prediction Based on Deep Convolutional Neural Networks with Self-Attention Mechanism[J]. Interdisciplinary Sciences Computational Life Sciences,2022,14(2):421-438. doi:10.1007/s12539-021-00496-7
[92] Chelur Vineeth R., Priyakumar U. Deva. BiRDS - Binding Residue Detection from Protein Sequences Using Deep ResNets[J]. Journal of Chemical Information and Modeling,2022,62(8):1809-1818. doi:10.1021/acs.jcim.1c00972
[93] Liu Xin, Zhu Bao, Dai Xia-Wei, et al. GBDT_KgluSite: An improved computational prediction model for lysine glutarylation sites based on feature fusion and GBDT classifier[J]. BMC Genomics,2023,24(1):. doi:10.1186/s12864-023-09834-z
[94] Zhu Lun, Zhang Ziqi, Yang Sen. BioSeq_Ksite: Multi-perspective feature-driven prediction of protein succinylation based on an adaptive attention module with SSBCE loss strategy[J]. International Journal of Biological Macromolecules,2025,310:143601-143601. doi:10.1016/j.ijbiomac.2025.143601
[95] Wang Wenkang, Shuai Yunyan, Yang Qiurong, et al. A comprehensive computational benchmark for evaluating deep learning-based protein function prediction approaches[J]. Briefings in Bioinformatics,2024,25(2):. doi:10.1093/bib/bbae050
[96] Özdilek A Samet, Atakan Ahmet, Özsarı Gökhan, et al. ProFAB—open protein functional annotation benchmark[J]. Briefings in Bioinformatics,2023,24(2):. doi:10.1093/bib/bbac627
[97] Hu Sai, Zhao Bihai. Protein function prediction using GO similarity-based heterogeneous network propagation[J]. Scientific Reports,2025,15(1):. doi:10.1038/s41598-025-04933-1
[98] Zhao Bihai, Zhang Zhihong, Jiang Meiping, et al. NPF:network propagation for protein function prediction[J]. BMC Bioinformatics,2020,21(1):. doi:10.1186/s12859-020-03663-7
[99] zhao bihai, Zhang Zhihong, Jiang Meiping, et al. NPF:Network propagation for protein function prediction. Research Square (Research Square),2020,. doi:10.21203/rs.3.rs-16452/v1
[100] Zhao Bihai, Zhang Zhihong, Jiang Meiping, et al. NPF:Network propagation for protein function prediction. Research Square (Research Square),2020,. doi:10.21203/rs.3.rs-16452/v2
[101] zhao bihai, Zhang Zhihong, Jiang Meiping, et al. NPF: Network propagation for protein function prediction. Research Square (Research Square),2020,. doi:10.21203/rs.3.rs-16452/v3
[102] Le Nguyen Quoc Khanh. Potential of deep representative learning features to interpret the sequence information in proteomics[J]. PROTEOMICS,2021,22(1-2):. doi:10.1002/pmic.202100232
[103] Zhao Qi, Zhang Yue, Hu Huan, et al. IRWNRLPI: Integrating Random Walk and Neighborhood Regularized Logistic Matrix Factorization for lncRNA-Protein Interaction Prediction[J]. Frontiers in Genetics,2018,9:. doi:10.3389/fgene.2018.00239
[104] Asghari Mehdi Poursheikhali, Abdolmaleki Parviz. Prediction of RNA- and DNA-Binding Proteins Using Various Machine Learning Classifiers.. PubMed,2019,11(1):104-111.
[105] Zhang Jingpu, Deng Lianping, Deng Lei. Protein structural domain-disease association prediction based on heterogeneous networks[J]. BMC Genomics,2025,23(S6):. doi:10.1186/s12864-024-11117-0
[106] Zhou Liqian, Duan Qi, Tian Xiongfei, et al. LPI-HyADBS: a hybrid framework for lncRNA-protein interaction prediction integrating feature selection and classification[J]. BMC Bioinformatics,2021,22(1):. doi:10.1186/s12859-021-04485-x
[107] Wang Minghui, Yue Lingling, Cui Xiaowen, et al. Prediction of Extracellular Matrix Proteins by Fusing Multiple Feature Information, Elastic Net, and Random Forest Algorithm[J]. Mathematics,2020,8(2):169-169. doi:10.3390/math8020169
[108] Ditz Jonas C., Reuter Bernhard, Pfeifer Nico. Inherently interpretable position-aware convolutional motif kernel networks for biological sequencing data[J]. Scientific Reports,2023,13(1):. doi:10.1038/s41598-023-44175-7
[109] Shrestha Palistha, Kandel Jeevan, Tayara Hilal, et al. Post-translational modification prediction via prompt-based fine-tuning of a GPT-2 model[J]. Nature Communications,2024,15(1):. doi:10.1038/s41467-024-51071-9
[110] Chen Lingtao, Li Qiaomu, Nasif Kazi Fahim Ahmad, et al. AI-Driven Deep Learning Techniques in Protein Structure Prediction[J]. International Journal of Molecular Sciences,2024,25(15):8426-8426. doi:10.3390/ijms25158426
[111] Peng Chun-Xiang, Liang Fang, Xia Yu-Hao, et al. Recent Advances and Challenges in Protein Structure Prediction[J]. Journal of Chemical Information and Modeling,2023,64(1):76-95. doi:10.1021/acs.jcim.3c01324
[112] Asim Muhammad Nabeel, Ibrahim Muhammad Ali, Malik Muhammad Imran, et al. ADH-PPI: An attention-based deep hybrid model for protein-protein interaction prediction[J]. iScience,2022,25(10):105169-105169. doi:10.1016/j.isci.2022.105169
[113] Li Michelle M., Huang Yepeng, Sumathipala Marissa, et al. Contextual AI models for single-cell protein biology[J]. Nature Methods,2024,21(8):1546-1557. doi:10.1038/s41592-024-02341-3
[114] Wang Shaojun, You Ronghui, Liu Yunjia, et al. NetGO 3.0: Protein Language Model Improves Large-Scale Functional Annotations[J]. Genomics Proteomics & Bioinformatics,2023,21(2):349-358. doi:10.1016/j.gpb.2023.04.001
[115] Li Liangzhi, Zhou Lei, Jiang Chengying, et al. AI-driven pan-proteome analyses reveal insights into the biohydrometallurgical properties of Acidithiobacillia. Frontiers in Microbiology,2023,14:. doi:10.3389/fmicb.2023.1243987
[116] O'Reilly Francis J, Graziadei Andrea, Forbrig Christian, et al. Protein complexes in cells by AI‐assisted structural proteomics[J]. Molecular Systems Biology,2023,19(4):. doi:10.15252/msb.202311544
[117] Zhang Liyuan, Jiang Yongquan, Yang Yan. GNNGO3D: Protein Function Prediction Based on 3D Structure and Functional Hierarchy Learning[J]. IEEE Transactions on Knowledge and Data Engineering,2023,36(8):3867-3878. doi:10.1109/tkde.2023.3331005
[118] Park Sujin, Jeong Wooyeop, Kim Yubeen, et al. Artificial intelligence in therapeutic antibody design: Advances and future prospects. Current Opinion in Structural Biology,2025,94:103084-103084. doi:10.1016/j.sbi.2025.103084
[119] Ibtehaz Nabil, Kagaya Yuki, Kihara Daisuke. Domain-PFP allows protein function prediction using function-aware domain embedding representations[J]. Communications Biology,2023,6(1):. doi:10.1038/s42003-023-05476-9
[120] Charmpi Konstantina, Chokkalingam Manopriya, Johnen Ronja, et al. Optimizing network propagation for multi-omics data integration. PLoS Computational Biology,2021,17(11):e1009161-e1009161. doi:10.1371/journal.pcbi.1009161
[121] Abdullah-Zawawi Muhammad-Redha, Govender Nisha, Harun Sarahani, et al. Multi-Omics Approaches and Resources for Systems-Level Gene Function Prediction in the Plant Kingdom[J]. Plants,2022,11(19):2614-2614. doi:10.3390/plants11192614
[122] Raj Yash, Xie Linhui, Varathan Pradeep, et al. Graph deep neural network for discovery of multi‐omic subnetworks related to Alzheimer’s Disease[J]. Alzheimer s & Dementia,2023,19(S2):. doi:10.1002/alz.066184
[123] Li Wenrui, Ballard Jenna, Zhao Yize, et al. Knowledge-guided learning methods for integrative analysis of multi-omics data[J]. Computational and Structural Biotechnology Journal,2024,23:1945-1950. doi:10.1016/j.csbj.2024.04.053
[124] Breugel Mark van, Silva Ivan Rosa e, Andreeva Antonina. Structural validation and assessment of AlphaFold2 predictions for centrosomal and centriolar proteins and their complexes[J]. Communications Biology,2022,5(1):. doi:10.1038/s42003-022-03269-0
[125] Huang Tao, Li Yixue. Current progress, challenges, and future perspectives of language models for protein representation and protein design[J]. The Innovation,2023,4(4):100446-100446. doi:10.1016/j.xinn.2023.100446
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-7-25 11:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社