北京化工大学张桂敏教授团队和澳大利亚蒙纳士大学宋江宁教授团队的文章HPClas: A data‐driven approach for identifying halophilic proteins based on catBoost已在mLife网站正式上线。该研究基于进化的方法从嗜盐菌分泌蛋白收集到了大量的嗜盐蛋白,并通过手动提取序列特征,通过catBoost在嗜盐蛋白数据集上进行了训练,开发了一个能够准确识别嗜盐蛋白的预测模型,并在独立测试集上实现了84.5%准确性,最后还对模型进行了可解释性分析,其结果与现在的一些嗜盐蛋白特征研究相吻合,进一步增强了模型的可信度。模型构建的数据集和源代码已上传至网站https://github.com/Showmake2/HPClas。
嗜盐蛋白具有独特的结构特性,在极端条件下表现出高稳定性,这使得它们在生物能源、制药、环境清洁等领域具有重要应用价值。目前,嗜盐蛋白的发现和表征主要依赖于耗时且劳动密集型的湿实验。为了提高效率,需要开发计算方法来筛选嗜盐蛋白,但现有方法存在数据稀缺和性能泛化问题,且缺乏用户友好的软件或网站。
该研究开发了一种名为HPClas(Halophilic Protein Classifier)的机器学习分类器(图1),使用catBoost集成学习技术来识别嗜盐蛋白,以氨基酸序列作为输入,输出嗜盐蛋白的概率。该研究利用嗜盐菌分泌的蛋白在长期进化过程中演变为嗜盐蛋白这一特性,预测了嗜盐微生物分泌的蛋白质,并进行数据清洗获得训练集。从UniProtKB中获取了独立测试集,确保测试集与训练集之间存在显著的分布差异。然后使用了9种特征描述符对蛋白质序列进行编码,并使用MinMaxScaler方法对特征值进行归一化处理。通过特征选择方法(如卡方检验、L1基特征选择、基于树的特征选择和方差阈值特征选择)进一步优化了catBoost模型的性能。HPClas在独立测试集上实现了0.844的AUROC,预测准确性优于现有的通用预测工具,如BLAST和HMMER。最后在16种实验验证的嗜盐酶上进行了验证,正确预测了13种嗜盐蛋白,3种非嗜盐蛋白,证明了其在实际应用中的有效性。
图1 嗜盐蛋白分类器的总体框架
他们希望未来能够获得更多的实验数据,特别是细胞内蛋白数据,在算法上,也期望使用更全面的算法,如图神经网络或预训练的大型语言模型,来提高嗜盐蛋白的设计任务,进一步提高该模型的实际应用价值。总之,该研究通过开发HPClas这一机器学习工具,显著提高了嗜盐蛋白的识别效率和准确性,并为未来研究和应用提供了新的方向和工具。
引用本论文:Hu S, Wang X, Wang Z, Jiang M, Wang S, Wang W, et al. HPClas: a data‐driven approach for identifying halophilic proteins based on catBoost. mLife. 2024.
原文链接:
https://doi.org/10.1002/mlf2.12125
第一作者
胡善桐
作者单位:北京化工大学生命科学与技术学院
作者简介:
北京化工大学在读硕士研究生,主要研究生物信息学。
通讯作者
张桂敏 教授
者单位:北京化工大学
作者简介:
北京化工大学教授,博士,主要从事生物催化和生物传感研究,近 5 年以通讯作者在中国科学院二区及以上期刊发表SCI论文30篇。现任中国微生物学会酶工程专业委员会委员等,获霍英东青年教师奖,湖北省杰出青年基金,湖北省中青年突出贡献专家等。
通讯作者
宋江宁 教授
作者单位:澳大利亚蒙纳士大学
作者简介:
澳大利亚蒙纳士大学教授,博士,主要从事人工智能驱动的生物信息和生物医学研究。2018 年以来,他的团队开发了超过 20 余个基于机器学习和深度学习的生物信息学分析工具包和软件,包括 iFeature、iLearn、iLearnPlus 和 iFeatureOmega,多篇重要成果发表在 Nature Methods、Nature Communications 、 Nucleic Acids Res 、 Cell Reports 、 PLoS Biology 、 Brief Bioinformatics和Bioinformatics等期刊。
mLife
期刊简介
mLife是由中国科学院主管、中国科学院微生物研究所主办(中国微生物学会为合作单位)的我国微生物学领域第一本综合性高起点英文期刊。mLife瞄准全球微生物学领域高水平科研成果和前沿进展,报道内容覆盖微生物学各个学科。mLife的办刊目标是打造微生物学领域综合性国际旗舰期刊。目前,mLife已被国内外重要数据库ESCI、PubMed Central、Scopus、CSCD、DOAJ、CAS等收录。2024年6月20日,mLife首获影响因子4.5,位于Q1区。
期刊网站:
https://wileyonlinelibrary.com/journal/mLife
https://www.sciopen.com/journal/2097-1699
投稿网站:https://mc.manuscriptcentral.com/mlife
扫码关注mLife
mLife@im.ac.cn
010 - 64807055
转载本文请联系原作者获取授权,同时请注明本文来自SciOpen TUP科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3563286-1450774.html?mobile=1
收藏