导读:近日,深圳湾实验室周耀旗课题组在National Science Review上发表综述展望:“3=1+2: How the Divide Conquered de Novo Protein Structure Prediction and What is Next? ”(3=1+2:分割是如何攻克蛋白质结构预测的?下一步将走向何方?),作者用通俗易懂的比喻讲述了AlphaFold的来龙去脉。
自从Anfinsen在1962年发现蛋白质各种各样的奇特结构是由它的序列所决定后,用计算来预测蛋白质的结构一直是分子生物学领域的一个圣杯。1994年马里兰大学John Moult发起了每两年一次的蛋白质结构预测方法的双盲预测比赛CASP(比赛时结构未知,评审者对比赛团队的数据进行盲审)。但是,对最难预测的、没有任何类似已知结构来参比的结构,在1996到2016年的20年间,10届CASP的比赛结果显示进展缓慢。如果按此速度,还需要两百多年才能实现可以与实验测量相比美的高精度结构预测。出乎意料,这两百多年的路程被2018年的AlphaFold和2020年的AlphaFold2在四年里走完了。目前AlphaFold对生物学研究的震撼影响还在不断回荡,是时候研究一下:在AlphaFold出现前后,到底发生了什么?它是从何而来,又会带我们到何处?
近日,深圳湾实验室周耀旗课题组在National Science Review上发表综述展望:“3=1+2: How the Divide Conquered de Novo Protein Structure Prediction and What is Next? ”(3=1+2:分割是如何攻克蛋白质结构预测的?下一步将走向何方?)。作者用通俗易懂的比喻讲述了AlphaFold的来龙去脉。文章认为,在2016-2018年间的1维结构信息(主链连续二面角)和2维结构信息(支链间连续距离)预测精度的跃升,以及2016年计算方法“可微分损失函数反向传播”的发展,使在神经网络内部实现端到端的、1+2=3的训练(先预测1维和2维结构信息,再构建3级结构)成为可能。在这些前人工作的基础上,AlphaFold改变了单序列加序列进化谱的输入,利用大数据进行大模型训练,把单一序列映射到单一结构的问题转变成多个同源序列映射到与它们相关的“单一”结构的问题,成功地踢进了临门一脚。
该文进一步认为,后AlphaFold时代不是结构生物学的终结,而是结构生物学与AI计算深入结合大发展这个新时代的开始。这是因为AlphaFold的精确度严重依赖于天然存在的、同源序列的多寡,而针对同源序列结构一致性的假设也就意味着AlphaFold无法预测单一或者少量突变可能导致的结构变化,最近AlphaFold团队开发的AlphaMissense的验证失败就证明了这一点。如果静态结构的、基于单一序列的预测尚不可用,那么通过深度学习来预测蛋白质动力学、构象转变、突变引起的蛋白质稳定性变化和蛋白质-配体相互作用将更具挑战性。另一方面,蛋白质-蛋白质复合物结构预测和蛋白质设计这两个研究领域,近期已经取得重要进展。其中,AI驱动的蛋白质设计现在已经成为主流,包括固定主链设计、基于序列的结构预测的幻想设计以及结构和序列生成器。与此同时,通过更好地利用多个同源序列的共同进化信息,蛋白质-蛋白质复合物结构预测也有可能得到部分解决。另一个相关的研究领域是从RNA序列预测RNA结构。最近在CASP 15中对RNA结构预测技术进行了评估。尽管参与的方法中有18/27是基于AI的,但排名前四的技术都是传统的、基于能量的方法。AI驱动的RNA结构预测在CASP15中的暂时落后突显了将深度学习应用于RNA结构预测所面临的独特挑战。
最后值得一提的是,周耀旗课题组从2007年开始启动蛋白质连续二面角的预测,2009年开发其在无结构碎片蛋白质结构预测上的应用,为2018和2020年AlphaFold的两次成功都提供了其中的关键一步。课题组开发的基于模版的蛋白质预测工具SPARKS和SPARKS X,以及统计能量函数DFIRE在蛋白质结构预测这个领域被广泛使用。课题组也在2014年在基于AI的蛋白质设计上作出了0到1的贡献。
深圳湾实验室系统与物理生物学研究所周耀旗研究员为该综述展望的第一作者和通讯作者。他与格里菲斯大学糖组学研究所Thomas Litfin研究员以及深圳湾实验室系统与物理生物学研究所詹剑研究员合作成文。该工作得到中国科技部生物与信息融合(BT与IT融合)重点专项的支持。
周耀旗课题组简介:周耀旗教授于2021年3月起作为资深研究员全职加入了深圳湾实验室,他是1984年中国科技大学近代化学系的学士,1990年美国纽约州立石溪大学化学物理的博士,1994-2000年北卡州立大学、哈佛大学的博士后,2000年任纽约州立布法罗大学助理教授,2004年升为终身副教授,2006年成为印第安纳大学信息学院和医学院终身正教授,2013-2021年任澳大利亚格里菲斯大学糖组学研究所正教授。课题组通过AI计算和高通量实验的结合,从事蛋白质/RNA的序列、结构与功能关系方面的基础研究和生物分子检测、药物开发方面的应用研究。寻找在RNA/蛋白方面有AI计算、定向进化和分子及细胞生物学实验相关经验的博士后。有兴趣者请访问http://zhouyq-lab.szbl.ac.cn。
可点击左下方“阅读原文”,访问原文链接。
论文标题:
3=1+2: How the Divide Conquered de Novo Protein Structure Prediction and What is Next?
原文链接:https://doi.org/10.1093/nsr/nwad259
转载本文请联系原作者获取授权,同时请注明本文来自周耀旗科学网博客。
链接地址:https://wap.sciencenet.cn/blog-472757-1406473.html?mobile=1
收藏