邵斌
人工智能与42:从AlphaFold谈起 精选
2018-12-6 12:39
阅读:3760

  最近deepmind又出了一个大新闻,名为AlphaFold的算法在蛋白质折叠领域大胜传统模型,相关报道可以参考该链接。大意是在两年一度的国际蛋白质结构预测竞赛(CASP)中,DeepMind团队新开发的AlphaFold模型利用神经生成网络表现惊人,把第二名远远甩在身后,在43个参赛蛋白中拿到25个单项最佳模型,而排名第二的团队仅仅拿下3个。DeepMind团队贴出的摘要题目为“De Novo structure prediction with deep-learning based scoring”。

  蛋白质结构从头预测可以算是计算生物学领域的老大难问题了,虽然每个氨基酸的旋转角度是有限多个,但整个蛋白的可能构型随长度指数增长,使得计算的复杂度大大增加。华盛顿大学的david baker所开发的rosetta是表现比较好的一个工具,我没太研究过这个算法的细节。不过即使对于Baker实验室,在蛋白设计方面,还是偏好一些简单结构,比如只有几个alpha螺旋和beta折叠,或者专注蛋白质相互作用界面设计,靠相互作用自组织形成空间对称或重复结构。

  利用深度学习来做蛋白质结构,AlphaFold不是第一家,在2016年左右的时候就能在biorxiv上看到这类文章了,但表现一直没怎么突出。不知道AlphaFold最大的贡献在哪里。由于没有文章出来,所以对于具体方法也无法评价。我有点怀疑可能还是计算力的进步,而不是有了某种更先进的理解。用一个更大的黑盒子(black box)代替原有的黑盒子。这也是我对人工智能缺乏理论的现状感到担忧的一个原因,具体可以参考我上一篇文章《人工智能的缺憾》。

  我在这里也开一个脑洞,我是学物理出身的,学物理的孩子小时候或多或少都有一个梦想,叫终极理论之梦,这也是温伯格一本书的名字。虽然现在这个梦想看起来还遥遥无期,但随着计算力的进步,“终极模拟之梦”没准快实现了。要是这个梦想实现了会有什么结果?

  首先,工程领域可以获得极大进步。就像现在内事不决问baidu。假设工程师和研发人员都有一个“最强大脑”,那么像飞机该怎么设计,药物该怎么设计问问AI就知道最佳方案。一个人得了疾病,如果做个测序就知道该怎么改造细胞。肯定会带来物质条件的巨大进步。

  但是思想上可能难以产生进步。对于深度学习,多数时候还是要靠参数的爆炸来获得更有效的模型。它输入的概念是确定的,输出的概念也是确定的。很难想象一堆经典概念通过某些运算能够得到关于“量子”的概念。一个领域如果依靠人工智能取得最大的进步,它可能就离传统上讲的“科学革命”比较遥远了。工程进步和基础理论的发展剥离开,对于一些领域可能是危险的,或许也让整个社会更加脆弱。我不相信有谁能记住1M个参数,万一有一天断电了,或者AI发了神经,估计人类的生存能力连前工业化时代都不如。

  深度学习适合的工作,可能可以分成两类,第一类是不需要理解的工作,诸如开开车。这本来也是人正常的工作,我觉得也没有什么好理解的。第二类是基本理解不了的,比如之前常谈的大数据,怎么从海量的个体或者生物数据中找一些有用的信号。有哪些问题是需要理解而现在还没能理解的,需要额外的思考。这次的蛋白质折叠问题,不知道属不属于这个范畴。

  42这个梗来自英国科幻作家道格拉斯·亚当斯的著名作品《银河系漫游指南》,这是一部非常推荐的作品。当时看得是科幻世界的译文版。一台名为Deep Thought的超级计算机经过700万年的思考,得出了关于生命,宇宙和万事万物终极问题的答案:42 [1].为什么是42,有人说英文原文是42个字,也可能宇宙这个巨大的程序初始化时用的随机数种子就是42.这个梗带入到现在,仍然像一个黑色寓言。


[1] 如果在google里面搜索"the answer to life, the universe, and everything is",就会得到一个显示着42的计算器。


转载本文请联系原作者获取授权,同时请注明本文来自邵斌科学网博客。

链接地址:http://wap.sciencenet.cn/blog-927304-1150143.html?mobile=1

收藏

分享到:

下一篇
当前推荐数:10
推荐到博客首页
网友评论10 条评论
确定删除指定的回复吗?
确定删除本博文吗?