周耀旗
RNA语言模型也来了! 精选
2023-11-10 21:09
阅读:6862

最近语言模型ChatGPT在回答各类问题的范围、深度和准确度上的革命性进展,掀起了开发通用大语言模型的热潮。与此同时,这些语言模型在生物高分子蛋白质上的应用也在不断深入,已经有二十多个不同规模、不同应用的模型问世,在蛋白质结构和功能预测、以及蛋白质设计上发挥出越来越大的作用。与有20个氨基酸组成的蛋白质相比,RNA语言模型的开发更为困难,因为RNA仅由4种碱基的排列组成,序列保守性极差,从而利用无监督训练来捕捉其中的结构和功能信息的挑战极大。

近日,我们与北大深圳研究生院及鹏城实验室陈杰课题组,以及现在在上海人工智能实验室的高志强研究员合作在Nucleic Acids Research上发表研究文章:“Multiple sequence-alignment-based RNA language model and its application to structural inference”(基于多序列比对RNA语言模型及其在结构推衍中的应用),成功开发了一个无监督多序列比对的RNA语言模型【1】。 

RNA-MSM-graphical abstract-v4.1B.png

我们决定开发基于同源序列比对、而不是基于单个序列的语言模型,是因为发现基于BERT(Bidirectional Encoder Representations from Transformers,双向编码器变换器)的RNA语言模型,无论是内部开发的,还是2022年在预印版arxiv上公开的,对三级结构包含的RNA碱基对的预测没有带来任何明显的效果。因此,提供多序列比对,然后让语言模型去提取进化和共进化信息可能会更加有效。但是,被认为是金标准的、人工收集标注的RNA家族(Rfam)里面只有4000个家族,而且每个家族里的RNA同源序列数的中位数只有45个,远远无法满足深度学习的需求。所以,他们不得不利用自主研发的全自动RNAcmap3管线,来从自己构建的、目前最大的核酸数据库MARS中,利用RNAfold预测的近似二级结构、并通过Infernal来搜索具有相同二级结构的同源序列。这个搜索提供了远超Rfam的同源序列数目(中位数>2000)。研究发现,这个多序列比对语言模型RNA-MSM所产生的二维注意力图和一维嵌入层已经自动包含了结构信息,可以直接映射到RNA的碱基配对概率和溶剂可及性。通过进一步的微调,这一模型在RNA结构相关任务上表现出了大幅度的改善,超过了现有的技术,包括利用了进化信息的SPOT-RNA2【2】和RNAsnap2【3】。

这一进展意味着RNA领域的结构推衍有了新的工具和方法,有望在RNA的结构和功能相关任务中发挥重要作用。团队将继续致力于研究和改进这一RNA语言模型,以进一步提高其通用性和泛化能力,为RNA的三维结构预测提供更多可能性。另一方面,该发现有望加速我们对RNA分子的理解,对生命科学研究和医学应用产生深远影响。团队将继续不懈努力,以更好地理解RNA的结构和功能,为新药研发和疾病治疗带来更多可能。

该工作得到国家自然科学基金委和深圳市科创委专项资金的支持。 

文章引用和链接 

【1】Y. Zhang, M. Lang, J. Jiang, Z. Gao, F. Xu, T. Litfin, K. Chen, J. Singh, X. Huang, G. Song, Y. Tian, J. Zhan, J. Chen, and Y. Zhou, “Multiple sequence-alignment-based RNA language model and its application to structural inference.”, Nucleic Acids Research, in press (2023). https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkad1031/7369930?utm_source=authortollfreelink&utm_campaign=nar&utm_medium=email&guestAccessKey=0ea85dab-dfdc-4855-bc61-46a1076f738d

【2】J. Singh, K. Paliwal, T. Zhang, J. Singh, T. Litfin, and Y. Zhou, Improved RNA secondary structure and tertiary base-pairing prediction using evolutionary profile, mutational coupling and two-dimensional transfer learning, Bioinformatics, 37, 2589–2600 (2021).  https://academic.oup.com/bioinformatics/article/37/17/2589/6168141?login=false 

【3】 A. Kumar, J. Singh, K. Paliwal, J. Singh, Y. Zhou, “Single-sequence and profile-based prediction of RNA solvent accessibility using dilated convolution neural network.”, Bioinformatics, 36: 5169-5176 (2020). https://academic.oup.com/bioinformatics/article/36/21/5169/5873586?login=false

广告:

周耀旗教授于2021年3月起作为资深研究员全职加入了深圳湾实验室,他是1984年中国科技大学近代化学系的学士,1990年美国纽约州立石溪大学化学物理的博士,1994-2000年北卡州立大学、哈佛大学的博士后,2000年任纽约州立布法罗大学助理教授,2004年升为终身副教授,2006年成为印第安纳大学信息学院和医学院终身正教授,2013-2021年任澳大利亚格里菲斯大学糖组学研究所正教授。他的科研成果的原创力和影响力获得了世界专家同行的肯定,特别是在基于AI蛋白质设计和主链结构预测上做出了原创性贡献,并多次入选了全球前2%顶尖科学家“终身科学影响力排行榜”和“年度科学影响力排行榜”、“中国高被引学者(生物学)榜”等。截至目前共发表同行评审的论文260多篇,包括Nature、Nature Methods、Genome Biology、Nucleic Acids Research 等国际知名期刊。谷歌学者总引用17,000余次,H因子70。并培养了多名美国、加拿大和中国的教授和副教授。回国后,他获得了中国科技部、国家基金委、广东省科技厅等多个重大科研项目的资助,并作为创始人之一创建了砺博(广州)生物科技有限公司,致力于靶向RNA小分子创新药的研发。目前课题组通过AI计算和高通量实验的结合,从事蛋白质/RNA的序列、结构与功能关系方面的基础研究和生物分子检测、药物开发方面的应用研究。寻找在RNA/蛋白方面有定向进化,分子及细胞生物学实验和AI计算相关经验的博士后。有兴趣者请访问http://zhouyq-lab.szbl.ac.cn

转载本文请联系原作者获取授权,同时请注明本文来自周耀旗科学网博客。

链接地址:https://wap.sciencenet.cn/blog-472757-1409213.html?mobile=1

收藏

分享到:

当前推荐数:5
推荐到博客首页
网友评论2 条评论
确定删除指定的回复吗?
确定删除本博文吗?