今天诺贝尔化学奖开奖,三位得奖者均是因为对蛋白质的杰出贡献获奖,其中华盛顿大学西雅图分校的 David Baker是因为 “计算蛋白质设计”,另后两位是英国伦敦 Google DeepMind 的 Demis Hassabis 和John M. Jumper在“蛋白质结构预测”的贡献。
我在昨天聊诺贝尔奖物理学奖的文章最后一段做了一个预言:
从今年诺贝尔物理学奖的得奖情况,和人工智能近年来对几乎全学科、所有领域的融入程度来看,也许,未来学好人工智能,很有可能会比拒绝人工智能的人,能更有效的工作、生活、形成新的重要发现,甚至争夺各个方向的诺贝尔奖。
没想到第二天这个预言就成真了。下面我来聊聊蛋白质结构预测,也就是Alpha系列中的AlphaFold子系列。
生命科学在2018年左右开始的发展,由于有人工智能的助力,备受瞩目,主要是因为最近有个明星级的产品,AlphaFold阿尔法折叠系列。它能从蛋白质的一级结构,即氨基酸序列的组合,来预判1)蛋白质的二级结构,即蛋白质分子中某一段肽链的局部空间结构;2)三级结构,即在二级结构基础上多段进一步折叠盘绕后形成的特定空间结构;3)四级结构,即蛋白质-蛋白质复合形成的结构,是更为复杂的生物大分子。AlphaFold系列对蛋白质结构与功能的预测,有望对人类在生命演化中的研究产生颠覆性影响。
图:蛋白质的四级结构(图来自网络)
蛋白质是由20种不同的氨基酸按特定序列连接形成的多聚体,要发挥生物学的功能,蛋白质通常会折叠成某一个特定的形状。早在1970年,其折叠的机理就被诺贝尔奖得主克里斯蒂安·安芬森以假说的形式提出,即在环境条件适宜时,蛋白质折叠后的稳定三维结构完全由组成它的氨基酸序列确定。这些折叠后的蛋白质就像我们平时开门用的钥匙和锁,有各自的功能表达。有的蛋白质能帮助维持新陈代谢,有的能提供能量,有的可以修复组织,有些能控制身体的体液平衡。
尽管有安芬森假说(Anfisen’s Dogma),以往要预测蛋白质的结构,需要依赖生物方面的检测。一级结构比较容易确定,简单的生物实验如质谱法即可。但涉及到二级以上结构如何折叠的,结构生物学家往往需要利用X射线、核磁共振、电游仪、冷冻电镜来检测。这些方法耗时耗力、人工成本也极高,比如电泳仪只能间接进行测量,实验中还受较多因素干扰,因而会影响对蛋白质结构的分析与理解。而能高分辨率解析的冷冻电镜则极为昂贵,一台约1亿人民币左右,我国至2024年已拥有超过60台。
2020年DeepMind公司推出的阿尔法折叠(AlphaFold),则避免了这些不足。一开始,它将组成蛋白质的一级结构(氨基酸序列)视为一个能反映序列特性的马尔可夫链模型,同时补充相关的信息如氨基酸序列标号及各氨基酸之间位置和角度的特征等,通过深度学习模型来预测蛋白质更高结构的信息。在与已知蛋白质高阶结构进行比较后,反复迭代多次地调整深度学习模型的参数,最后获得最优的预测模型,输出蛋白质的空间位置和每组氨基酸的角度信息,从而实现对蛋白质空间结构的预测。
从AlphaFold到2024年5月提出的AlphaFold3,时间并不长,但却让蛋白质的结构预测能力从二级结构预测提升到了四级结构预测。由于深度学习能海量、高效解析蛋白质的结构,它大幅度降低了蛋白质结构的难度、人力和财力成本,使得大多数蛋白质结构的预测变得简单快捷,仅留少量仍需通过实验来探索。
它的意义在于,生命科学家们今后可以将重心从蛋白质结构的预测,转到蛋白质的功能预测上。这对于探索人类和其他生物的生命密码尤其重要。
当然,AlphaFold系统还存在不少不足,并不能完全取代生命科学家。而且生命科学也远不止蛋白质功能预测这么简单,还有相当多的任务需要完成。其中不少内容无法进行海量标注,也无法将其纳入到当下流行的大模型框架,尤其是复杂的生物关系网。
这也是为什么近年来,人工智能研究者开始强调,今后若干年可以发力的一个方向是AI for Science,缩写为AI4S,而其中的重心便是生命科学。
张军平
2024年10月9日
转载本文请联系原作者获取授权,同时请注明本文来自张军平科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3389532-1454540.html?mobile=1
收藏