博文

NLP 新纪元来临了吗？

已有 1825 次阅读 2022-5-4 21:34 |个人分类:立委科普|系统分类:科研笔记

与曼宁教授合影（2017-07-18）

前一篇博文推荐Chris Manning 论大模型，并附上相关讨论。这篇综述对于NLP意义重大，值得反复研读。文章也很好读，写得清晰简练。

有一个有意思的观点，值得介绍。曼宁试图重新做NLP历史划分，从而突出自学习革命的分水岭作用：

In hindsight, the development of large-scale self-supervised learning approaches may well be viewed as the fundamental change, and the third era might be extended until 2017.

我们知道，过去30多年经验主义AI成为主流以来，常规的AI时代划分都是：时代III 是传统的机器学习；时代IV是深度学习。分水岭是 2013 年（应该是 image 上的那次爆炸性突破）。

但是从NLP角度，2013-2017 这四五年，深度学习虽然横扫了图像和语音，但在 NLP 本身却遭遇挑战，没有真正的突破，根本原因还是因为NLP监督学习任务依赖太多的标注数据，这一点与时代 III 没有区别，甚至依赖性更强（数据上不来，神经的表现还不如传统的统计模型）。因此虽然 AI 整体的时代分水岭是 2013，NLP 作为认知智能的拦路虎却应该把里程碑推迟到 2018年。

2018年是自学习预训练元年。NLP终于摆脱了标注数据的桎梏，可以直接从语言学习语言，开始利用无穷无尽的自然语言原生数据。从研究角度看，曼宁显然认为这才是NLP范式转变的开始。这个历史观点我认为是站得住脚的，是个有洞见的划分。

（顺便一提，曼宁的综述中，曼宁提到 2018 年NLP新纪元的时候，忘了给 reference 了，编辑也似乎忽略了这一关键节点，有点意外。2018年是 BERT 还是 pre-BERT 的啥模型，可以查阅一下。）

无论如何，没有自学习谈不上NLP的革命。这是这篇文章的主旨。

但如果细究，自学习（其实很长时间都是一直叫预训练，好像是 Yann Lecun 开始不断改用 self-supervised learning 才慢慢普及开来，目前的趋向是逐渐过渡到基础模型的说法）其实并没有真正从监督学习走向人们曾经向往的无监督学习。因为算法上，预训练大模型本质上还是监督学习，只是规模超大，因为数据超大而已。

这一切尝试本来也可能并不会引发一场可以认为是革命的事件。因为超大规模的模型本性上肯定是简单的，一开始就是做 next word 的预测，后来也只是做填空猜字的游戏。谁也没想到这种看上去非常简单的模型居然有能力加强NLP任务的方方面面，甚至影响超越NLP，使得类似框架反过来延伸到多模态符号（图像、语音）一样可以建立基础模型赋能AI任务。

虽然从小就被马克思辩证法洗脑，量变引起质变默念在心，其实心底一直没有真地被信服：大号的 X 还是 X，怎么就变成 Y 了呢。但是，到了自学习超大模型（BERT，GPT-3等）这里，我们确实见证了这种神奇的效应。

当然，从 2018 年到现在，这场NLP革命也还只是处于初级阶段，等于是完成了可行性研究，NLP大模型在各场景全面开花结果还有很长的路要走。我以前觉得5年可见分晓。曼宁说的是今后10年是NLP革命最激动人心的时代。越来越多的资源和人才开始向这里聚集。

这个其实颇有争议。有不少人不以为然，认为这是高估了自学习大模型的作用，预见在领域普及化的过程中会遭遇困难，甚至滑铁卢。因为自学习模型在知识表示的层次性和完整性方面显然有严重缺陷，而且显然缺乏”真正的“语言理解，虽然可行性研究出现了一些貌似非常理解非常智能的表现。这一观点也不无道理。是不是一场真正的NLP规模化落地的革命，5-10年后回看才能真正裁决。

马少平老师说：“打个比喻，大模型还只是地心说，虽然能解决一些问题，但还远没有到达日心说呢。” 说得有理，可能要经过几个螺旋式上升，才能更加逼近通用的NLP和AI吧。另一方面看，如果没有自学习的出现，NLP 一直是个累赘，现在转而成为 AI 的急先锋了。

顺便一提，马斯克的纯视觉自动驾驶最近高调声称在其视觉理解系统中使用了 transformer 框架，对于路况感知能力大大增强。此前，我们知道，图片分类在引入超大预训练模型以后，新的框架已经刷新了记录。多模态、跨模态AI基础模型的研究已经成为新热点。

【相关】