科学网-RNA语言模型也来了！-周耀旗的博文

RNA语言模型也来了！

2023-11-10 21:09

阅读：9820

最近语言模型ChatGPT在回答各类问题的范围、深度和准确度上的革命性进展，掀起了开发通用大语言模型的热潮。与此同时，这些语言模型在生物高分子蛋白质上的应用也在不断深入，已经有二十多个不同规模、不同应用的模型问世，在蛋白质结构和功能预测、以及蛋白质设计上发挥出越来越大的作用。与有20个氨基酸组成的蛋白质相比，RNA语言模型的开发更为困难，因为RNA仅由4种碱基的排列组成，序列保守性极差，从而利用无监督训练来捕捉其中的结构和功能信息的挑战极大。

近日，我们与北大深圳研究生院及鹏城实验室陈杰课题组，以及现在在上海人工智能实验室的高志强研究员合作在Nucleic Acids Research上发表研究文章：“Multiple sequence-alignment-based RNA language model and its application to structural inference”（基于多序列比对RNA语言模型及其在结构推衍中的应用），成功开发了一个无监督多序列比对的RNA语言模型【1】。

RNA-MSM-graphical abstract-v4.1B.png

我们决定开发基于同源序列比对、而不是基于单个序列的语言模型，是因为发现基于BERT（Bidirectional Encoder Representations from Transformers，双向编码器变换器）的RNA语言模型，无论是内部开发的，还是2022年在预印版arxiv上公开的，对三级结构包含的RNA碱基对的预测没有带来任何明显的效果。因此，提供多序列比对，然后让语言模型去提取进化和共进化信息可能会更加有效。但是，被认为是金标准的、人工收集标注的RNA家族（Rfam）里面只有4000个家族，而且每个家族里的RNA同源序列数的中位数只有45个，远远无法满足深度学习的需求。所以，他们不得不利用自主研发的全自动RNAcmap3管线，来从自己构建的、目前最大的核酸数据库MARS中，利用RNAfold预测的近似二级结构、并通过Infernal来搜索具有相同二级结构的同源序列。这个搜索提供了远超Rfam的同源序列数目（中位数>2000）。研究发现，这个多序列比对语言模型RNA-MSM所产生的二维注意力图和一维嵌入层已经自动包含了结构信息，可以直接映射到RNA的碱基配对概率和溶剂可及性。通过进一步的微调，这一模型在RNA结构相关任务上表现出了大幅度的改善，超过了现有的技术，包括利用了进化信息的SPOT-RNA2【2】和RNAsnap2【3】。

这一进展意味着RNA领域的结构推衍有了新的工具和方法，有望在RNA的结构和功能相关任务中发挥重要作用。团队将继续致力于研究和改进这一RNA语言模型，以进一步提高其通用性和泛化能力，为RNA的三维结构预测提供更多可能性。另一方面，该发现有望加速我们对RNA分子的理解，对生命科学研究和医学应用产生深远影响。团队将继续不懈努力，以更好地理解RNA的结构和功能，为新药研发和疾病治疗带来更多可能。

该工作得到国家自然科学基金委和深圳市科创委专项资金的支持。

文章引用和链接：

【1】Y. Zhang, M. Lang, J. Jiang, Z. Gao, F. Xu, T. Litfin, K. Chen, J. Singh, X. Huang, G. Song, Y. Tian, J. Zhan, J. Chen, and Y. Zhou, “Multiple sequence-alignment-based RNA language model and its application to structural inference.”, Nucleic Acids Research, in press (2023). https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkad1031/7369930?utm_source=authortollfreelink&utm_campaign=nar&utm_medium=email&guestAccessKey=0ea85dab-dfdc-4855-bc61-46a1076f738d

【2】J. Singh, K. Paliwal, T. Zhang, J. Singh, T. Litfin, and Y. Zhou, Improved RNA secondary structure and tertiary base-pairing prediction using evolutionary profile, mutational coupling and two-dimensional transfer learning, Bioinformatics, 37, 2589–2600 (2021). https://academic.oup.com/bioinformatics/article/37/17/2589/6168141?login=false

【3】 A. Kumar, J. Singh, K. Paliwal, J. Singh, Y. Zhou, “Single-sequence and profile-based prediction of RNA solvent accessibility using dilated convolution neural network.”, Bioinformatics, 36: 5169-5176 (2020). https://academic.oup.com/bioinformatics/article/36/21/5169/5873586?login=false

周耀旗教授于2021年3月起作为资深研究员全职加入了深圳湾实验室，他是1984年中国科技大学近代化学系的学士，1990年美国纽约州立石溪大学化学物理的博士，1994-2000年北卡州立大学、哈佛大学的博士后，2000年任纽约州立布法罗大学助理教授，2004年升为终身副教授，2006年成为印第安纳大学信息学院和医学院终身正教授，2013-2021年任澳大利亚格里菲斯大学糖组学研究所正教授。他的科研成果的原创力和影响力获得了世界专家同行的肯定，特别是在基于AI蛋白质设计和主链结构预测上做出了原创性贡献，并多次入选了全球前2%顶尖科学家“终身科学影响力排行榜”和“年度科学影响力排行榜”、“中国高被引学者（生物学）榜”等。截至目前共发表同行评审的论文260多篇，包括Nature、Nature Methods、Genome Biology、Nucleic Acids Research 等国际知名期刊。谷歌学者总引用17,000余次，H因子70。并培养了多名美国、加拿大和中国的教授和副教授。回国后，他获得了中国科技部、国家基金委、广东省科技厅等多个重大科研项目的资助，并作为创始人之一创建了砺博（广州）生物科技有限公司，致力于靶向RNA小分子创新药的研发。目前课题组通过AI计算和高通量实验的结合，从事蛋白质/RNA的序列、结构与功能关系方面的基础研究和生物分子检测、药物开发方面的应用研究。寻找在RNA/蛋白方面有定向进化，分子及细胞生物学实验和AI计算相关经验的博士后。有兴趣者请访问http://zhouyq-lab.szbl.ac.cn

转载本文请联系原作者获取授权，同时请注明本文来自周耀旗科学网博客。

链接地址：https://wap.sciencenet.cn/blog-472757-1409213.html?mobile=1

当前推荐数：5

推荐人：

郑永军乔中东王安良杨正瓴崔锦华

推荐到博客首页

网友评论2 条评论

该博文允许注册用户评论请点击登录