拜托,AI还没有在RNA结构预测上获得重大进展!
精选
2021-8-28 09:12
阅读:10134
昨天,几个科普公众号轰炸了朋友圈,下面是几个例子:“Science封面重磅:新型AI算法准确预测RNA三维结构”—学术头条;“继AlphaFold之后又一结构预测里程碑,斯坦福团队AI算法精准预测RNA三维结构,论文为Science当期封面 | 专访”—DeepTech;“AI预测RNA结构登上Science封面,论文一作已成立药物公司开始招人,在预测RNA三级结构上达到了前所未有的准确度”—量子位。
首先我得感谢这些公众号为预测RNA三维结构这个问题的重要性做了宣传,可以说AI在RNA结构模型的评价上有了进展,但说AI算法精准预测RNA三维结构、RNA的AlphaFold出来了,这个也太过了。ARES的几何深度学习到底学习到了什么?实际上,这个模型所训练出来的是一个RNA结构评价函数:给一个人工结构模型,预测这个模型与真实的结构相差有多远。也就是说训练了一个给RNA结构打分的郭晶晶,但全红禅在哪里还不知道!
以前类似的打分函数或者能量函数一般是根据物理原理来推导或者通过对RNA结构构像进行统计分析,这个ARES模型的不同之处是通过深度学习来获得这样的打分函数。科学家用了18个已知的小RNA结构,就训练出了ARES模型,这其实也不稀奇,过去推导基于物理原理推导的经验能量函数也都是用几个小结构来验证,只不过这次是全自动的了,不需要用手工调了。ARES打分函数好并不惊奇,因为以前的没有用人工RNA模型来训练,所以当遇到人工模型,这些经过训练的函数比没有训练过的模型好。ARES在没有见过的RNA上能够作出更加好的判断,说明该方法训练的鲁棒性比较好,以前许多AI的方法就栽在这上面了。
但RNA结构预测最难的部分是找到接近天然结构(near native structure)的构像。这方面ARES模型并没有涉及,所以ARES需要跟能够产生结构构像的FARFAR2方法结合才能被训练,去预测。FARFAR2无疑是当今最好方法之一,但目前的问题是,所有的方法都只能预测比较简单的RNA结构,稍微复杂一点就对付不了了。事实上,在盲测比赛中,ARES + FARFAR2所预测的四个RNA,除了一个是比较好的5Å,其它都是10-15Å。看起来好像比目前的方法好很多(10-20 Å, Bujnicki组),但其实大多数谁也不像,因为至少要<6 Å才可能有点类似的模样,否则都是渣渣(50步和100步的区别而已,上图右)。所以说现在的方法基本上只能做直上直下的跳水,有点花样的就不行了。也就是说即使有了郭晶晶,如果没有全红禅,大家看的也只是热闹,离AlphaFold2的成就(多数蛋白<2.5Å)差的不是一点点。而且如果真有全红禅参加比赛,ARES能不能像郭晶晶那样判断,还是一个未知!
ARES其实只是相当于AlphaFold2里面蛋白质人工结构评价的那部分,离RNA结构全预测有很大的距离。毫无疑问,这个深度学习产生的ARES模型在RNA结构打分函数上迈出了可喜的一步,但这仅仅是RNA结构预测这个大问题里面的一个子问题。这个子问题和其它子问题(例如二级结构预测、主链构像预测和结构高精度优化)的一起稳定进展才能为最终解决RNA结构预测问题作出贡献。也就是说,训练RNA结构预测上的全红禅还需要一段时间。虽然AI进展日新月异,也许明天就会有,但今天还没有。
转载本文请联系原作者获取授权,同时请注明本文来自周耀旗科学网博客。
链接地址:https://wap.sciencenet.cn/blog-472757-1301751.html?mobile=1
收藏
当前推荐数:10
推荐到博客首页
网友评论6 条评论