IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于关键功能模块挖掘的蛋白质功能预测

已有 576 次阅读 2024-3-15 09:42 |系统分类:博客资讯

引用本文

 

赵碧海, 李学勇, 胡赛, 张帆, 田清龙, 杨品红, 刘臻. 基于关键功能模块挖掘的蛋白质功能预测. 自动化学报, 2018, 44(1): 183-192. doi: 10.16383/j.aas.2018.c160592

ZHAO Bi-Hai, LI Xue-Yong, HU Sai, ZHANG Fan, TIAN Qing-Long, YANG Pin-Hong, LIU Zhen. Prediction of Protein Functions Based on Essential Functional Modules Mining. ACTA AUTOMATICA SINICA, 2018, 44(1): 183-192. doi: 10.16383/j.aas.2018.c160592

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c160592

 

关键词

 

功能预测,多关系网络,蛋白质相互作用,关键功能模块 

 

摘要

 

精确注释蛋白质功能是从分子水平理解生物体的关键.由于内在的困难和昂贵的开销,实验方法注释蛋白质功能已经很难满足日益增长的序列数据.为此,提出了许多基于蛋白质相互作用(Protein-protein interactionPPI)网络的计算方法预测蛋白质功能.当今蛋白质功能预测的趋势是融合蛋白质相互作用网络和异构生物数据.本文提出一种基于多关系网络中关键功能模块挖掘的蛋白质功能预测算法.关键功能模块由一组紧密联系且共享生物功能的蛋白质组成,它们能与网络中的剩余部分较好地区分开来.算法通过从多关系网络的每一个简单网络中挖掘高内聚、低耦合的子图形成关键功能模块.关键功能模块中邻居蛋白质的功能用于注释待预测功能的蛋白质.每一个简单网络在蛋白质功能预测中的重要性各不相同.实验结果表明,提出的方法性能优于现有的蛋白质功能预测方法.

 

文章导读

 

由于蛋白质在不同生物过程中扮演重要角色, 注释功能未知的蛋白质是后基因时代的重要任务之一.生物实验确定蛋白质功能存在耗时多和费用高的问题[1].因此, 基于计算的功能预测成为非常重要的替代方法.然而, 这种方法需要准确而可靠的自动功能预测器.现有的基于计算的功能预测方法都是建立在数据库中已经注释的蛋白质的功能之上.虽然相互作用数据、序列数据和蛋白质结构数据等都已用于蛋白质功能预测算法, 但是设计一种有效的方法充分利用各种不同的生物信息依然是一个巨大的挑战, 源于这些生物数据的异构性、复杂性和多样性.根据整合这些不同数据源的方式不同, 这些基于计算的预测方法可以分为四类:基于多特征向量方法、基于多分类器方法、基于核的方法和基于网络的方法.网络是一种很好的描述蛋白质之间关系的途径, 而且大量基于网络的方法为我们提供了有效的工具从网络中挖掘信息, 这也有助于我们理解细胞生命活性物的复杂机制.

 

大部分基于网络的蛋白质功能预测方法都是从蛋白质相互作用(Protein-protein interaction, PPI)网络提取信息.这些方法都建立在一个发现的基础上:大约70 % ∼ 80 %的蛋白质与它们在PPI网络的相互作用伙伴至少共享一项功能[2].一些方法通过PPI网络中的直接或间接邻居节点预测未注释的蛋白质功能.上述的这些方法独立地为每一个蛋白质预测功能.还有一些方法将PPI网络中的蛋白质分成多个功能模块, 并为相同的模块注释相同的功能[3].这类方法聚类形成模块或复合物的方式存在差异.由于相互作用数据中存在假阳性和假阴性, 一些研究者结合相互作用网络和异构生物数据, 提高功能预测的准确率, 例如基因表达数据[4]、同源数据[5]、蛋白质复合物数据[6]、结构域数据[7].

 

另一种流行的基于网络并利用生物信息资源的方法是基于GO term的功能相似性建立功能关联网络.蛋白质功能描述为结构化的标准词汇, 并存储在基因本体数据库. GO term之间的父亲孩子关系可以表达为有向无环图.考虑到两个相似的功能共同注释一个共同的蛋白质以及两个相互作用的蛋白质倾向于共享同一功能, 一些研究者结合PPI网络和功能相似性, 从而提高功能预测的准确率.由于PPI网络的不完整性, 其他的异构数据也被整合进来. Peng[8]结合PPI网络和Domain信息, 利用蛋白质的功能相似性, 提出名为DCS的蛋白质功能预测方法.进一步, 加入蛋白质复合物信息, 提出了改进的DSCP方法.大部分整合异构数据的方法基本采取如下思路: 1)生成各种功能相关网络(每一个数据源对应一个或多个网络); 2)这些单独的网络通过加权汇总的方式形成一个复合网络.这些方法的区别在于单个网络形成复合网络时, 不同方法权值比例和优化方式存在差异.

 

综上所述, 整合多元生物数据能够有效弥补相互作用网络不完整性和噪声的问题, 提高基于网络的蛋白质功能预测方法的准确率.但是, 引入其他生物信息后, 使得蛋白质之间的联系更加复杂, 更加多元化.现有的方法基本都采取合并多种类型的相互作用的处理方式, 这虽然能够一定程度增加正确匹配的功能数量, 但也会同时引入更多的噪声功能, 最终使得整体预测性能提升不大.上述提及的某些方法先构建多种功能关联网络, 然后再采取加权汇总的方式将多个单独网络构成一个复合网络.不同网络在加权汇总时的比重各不相同, 而每个网络的比重参数成为影响功能预测方法的重要因素.参数的设置一般会根据经验值设置.即便是通过优化的方式获取, 也存在不同数据集有不同设置的问题.从这些问题出发, 本文在原有研究基础之上, 结合PPI网络、蛋白质复合物数据和蛋白质结构域数据建立多关系网络.考虑到蛋白质功能与模块之间的紧密联系, 提出一种基于多关系网络中关键功能模块挖掘的蛋白质功能预测方法(Prediction of functions based on essential functional modules mining from a multi-relational network, PEFM).蛋白质的功能不是由单个蛋白质独立完成, 而是与其他蛋白质相互作用共同执行机体功能, 蛋白质功能与功能模块之间存在紧密联系.关键功能模块是指相互间紧密联系的蛋白质组成的功能模块或复合物.移除关键功能模块会使得生物体丧失许多重要分子功能.因此, 通过挖掘关键功能模块有助于提高蛋白质功能预测算法的准确率. PEFM方法依次遍历多关系网络分解得到的每一个简单网络, 挖掘高内聚、低耦合的稠密子图形成不同网络层次的关键功能模块集合.模块中节点的全部功能用于注释测试蛋白质.多个数据集的实验结果验证了PEFM算法的有效性.

 1  结构域与蛋白质功能关系综合统计

 2  蛋白质功能与共享复合物统计分析

 3  多关系网络可视化显示

 

现有的蛋白质功能预测方法整合PPI网络和多元生物信息数据, 从而提高功能预测性能.而融入多元信息后, 蛋白质之间的相互作用变得多样化.不同类型的相互作用在功能预测中的作用各不相同.将两个蛋白质间的多种相互作用进行简单合并, 虽然能有效地降低假阴性的影响, 增加预测的功能数量, 但同时也增加了假阳性功能的数量, 使得功能预测的整体性能提高不大.本文利用网络拓扑特性、结构域信息和复合物信息构造多关系的蛋白质相互作用网络.鉴于蛋白质功能与模块之间的紧密联系, 本文从多关系网络中挖掘关键功能模块, 利用关键功能模块的功能对蛋白质进行功能注释.四个酵母的PPI网络上的实验结果验证了方法的有效性.

 

作者简介

 

赵碧海

博士, 长沙学院计算机工程与应用数学学院副教授.2014年获得中南大学信息学院博士学位.主要研究方向为生物信息学, 数据挖掘.E-mail:bihaizhao@163.com

 

李学勇  

长沙学院计算机工程与应用数学学院教授.2016年获得中南大学信息学院博士学位.主要研究方向为生物信息学.E-mail:xueyongli@163.com

 

张帆  

长沙学院计算机工程与应用数学学院讲师.2014年获北京航空航天大学计算机学院博士学位.主要研究方向为生物信息学.E-mail:zf_ccsu@163.com

 

田清龙  

长沙学院数学与计算机科学系讲师.2012年获湖南大学信息科学与工程学院硕士学位.主要研究方向为生物信息学, 机器学习.E-mail:chinatql@126.com

 

杨品红  

博士, 湖南文理学院生命科学学院教授.1999年获博士学位.主要研究方向为水生生物资源与利用.E-mail:yph098@163.com

 

刘臻  

博士, 长沙学院生物与环境工程学院教授.2010年获博士学位.主要研究方向为分子营养与调控研究.E-mail:zhenliuccsu@163.com

 

胡赛  

长沙学院计算机工程与应用数学学院副教授.2003年获得湖南大学数学与计量经济学院硕士学位.主要研究方向为生物信息学, 统计学.本文通信作者.E-mail:husaiccsu@163.com



https://wap.sciencenet.cn/blog-3291369-1425394.html

上一篇:基于多元优化算法的三维装箱问题的研究
下一篇:【当期目录】IEEE/CAA JAS第11卷第2期
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 18:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部