xjb的个人博客分享 http://blog.sciencenet.cn/u/xjb

博文

蛋白质结构预测最新进展和DeepMind

已有 7219 次阅读 2018-12-8 10:39 |系统分类:观点评述| 蛋白质折叠, 蛋白质结构预测, 人工智能, 深度学习, DeepMind

CASP是两年一度的蛋白质结构预测评比,主要用来衡量这个既困难又重要的领域的进展。CASP是完全blind的评比,也就是说参赛者在进行预测的时候真实的蛋白质结构可能还没有用实验技术解出来。CASP比赛有很多类别,最流行的是接触图(contact map)预测和三维结构预测。接触图预测是三维结构预测的关键一步,可以用来直接衡量所使用的人工智能技术的好坏。每一类别又有两种参赛者:人工组和服务器组。这两种参赛者都依赖于计算机软件,没有谁会真正去手工预测的。他们的区别在于:1)对每一个测试蛋白质,服务器有三天时间而人工组有三个礼拜;2)人工组可以看到和使用所有服务器组的结果,而服务器组是看不到其他组的结果的。因为这样,最好的人工组总是要好于最好的服务器组的。


DeepMindCASP13中取得了骄人的成绩,他们的新闻宣传提高我们这个领域在公众里面的知名度,但在某些地方也误导了公众。比如有些报道宣传人工智能战胜人类;误导公众以为他们使用的人工智能技术是完全原创的,以为只有他们在这个领域取得进展,其他参赛者不堪一击;误导公众以为这个问题已经被他们解决了。


DeepMind参赛的类别是三维结构预测人工组,宣传战胜人类既不符合实际也毫无意义。DeepMind没有参加接触图预测,所以无法直接衡量他们的人工智能技术到底有多好。他们团队口头告诉我的是他们的精度跟我的服务器RaptorX-Contact差不多。


在三维结构预测人工组中,如果按总成绩排名,DeepMind大概是第三名。DeepMind最擅长的是用来预测比较难的蛋白质,在这一类确实是最好的。在32个最难的测试蛋白质上,DeepMind和第二名人工组的第一模型的平均TM得分分别是0.58360.5208(满分是1分)。这个结果并不能表明其他参赛者不堪一击,特别是考虑到DeepMind团队一共有17个训练有素的人员(有些不是全职做这个项目的,他们方法摘要上写了10个人的名字),远超其他团队的力量。那么是不是只有DeepMind取得进展呢?情况完全不是这样的。由于CASP13的测试蛋白质的难度与CASP12相当,我们可以通过比较这两次的预测精度来估计这个领域的进展。


在接触图预测中,所有排名靠前的组都取得远超CASP12的成绩,比如两次正式排名第一的RaptorX-ContactCASP12CASP13的得分(L/5远程精度)分别是47%70%。在三维结构预测中,两家最好的服务器RaptorX-Contact (RaptorX-DeepModeller) Zhang-Server (Quark)在难的蛋白质上远远好于CASP12最好的人工组。基本上来说,大部分参赛者都取得了比CASP12好的成绩。这说明这个领域取得了非常大的进展,那么进展的真实原因是什么呢?肯定不是DeepMind, 因为他们的方法到现在还没发表呢,大家在比赛前不可能知道他们的方法。其实看看CASP13参赛者提交的方法摘要就清楚了。基本上所有成绩好的组都使用了一个叫做全局性的深度卷积残差神经网络(Deep Convolutional Residual Neural Network)的方法去预测接触图或者距离图。而我刚好是第一个提出这个方法的,第一篇描述这个方法的论文《Accurate De Novo Prediction of Protein Contact Map by Ultra-Deep Learning Model》我于20169月份就贴在网上了,201715号正式发表于国际计算生物学协会的官方杂志《PLoS Computational Biology》,并于2018年获得了《PLoS Computational Biology》的突破/创新奖。这篇论文用了大量的结果(包括第三方CAMEO严格的测试结果)表明深度卷积残差神经网络可以极大提高蛋白质结构预测的性能。我于2017年在细胞子刊《Cell Systems》上发表了另外一篇论文指出这个方法也可以用来预测膜蛋白的结构。膜蛋白对制药很重要,但是用实验技术解膜蛋白的结构很困难,所以针对膜蛋白的预测技术尤其重要。


那么DeepMind在难的蛋白质上表现为什么是最好的呢?DeepMind当然也实现了深度卷积残差神经网络,并且使用了更多层数和训练数据。但是不知道他们的神经网络到底比我的RaptorX-Contact改进了多少。另外,他们比我多做了一步,他们把深度卷积残差神经网络预测出来的信息输入到当前一个最强大的蛋白质建模软件Rosetta里面去构建三维结构。而我因为人太少(去年基本上是一个人在做)还没来得及使用RosettaRosetta并不是DeepMind开发的,它是David Baker教授历经20多年开发出来的一个软件。Rosetta可以把一个差不多的三维结构优化得非常好。可以看出,DeepMind真正赢的原因并不是方法上有很大的创新,主要在于工程上的整合,他们把每一个关键步骤都调试和优化地非常好。而大学或者研究所的团队一般是没有这么多人进行这方面的工作, 今后要跟DeepMind竞争光靠一个小的研究组在工程上的优化是很困难的,一定要有一个新的非常好的想法。


这个领域在最近几年取得了比较大的进展主要在于两个方法:1)基于共进化的预测蛋白质接触图的全局分析方法。这个方法1999年在网上非正式发表,但是直到大概10年前才被重新注意到;2)基于深度卷积神经网络的蛋白质接触图或者距离图的全局预测方法。第一个方法对于真正难的蛋白质效果不好,一般只能作为第二个方法的输入。没有第一个方法作为输入,第二个方法也能做得不错。DeepMind的成绩进一步证实了这两个方法特别是后者的有效性。尽管进展很大,但是大部分预测结果的精度离实验技术还有点远,所以做实验的不用担心失业,刚买不久的电镜也不用担心浪费了。



https://wap.sciencenet.cn/blog-351207-1150493.html


收藏 IP: 128.135.8.*| 热度|

3 周耀旗 井晓阳 刘士勇

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 11:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部