博文

李约瑟之问与大模型精选

已有 7265 次阅读 2024-9-22 22:48 |系统分类:观点评述

英国学者李约瑟是中国人民的老朋友，他最大的贡献之一是首次提出了中国古代四大发明的概念，在近代他也跟很多文化名人都有交往。李约瑟博士在编著《中国科学技术史》时提出了以下的问题 “中国古代对人类科技发展做出了很多重要贡献，但为什么科学和工业革命没有在近代的中国发生”。

关于该问题已经有很多研究，讨论李约瑟之问不是本文的目的。我的观点是李约瑟之问与我们现在发展的语言大模型（LLM）实有共通之处。

大模型完美符合中国古代知识分子的理想形象

如果用四个字概括语言大模型，那就是博闻强识。按照礼记的说法“博闻强识而让，敦善行而不怠，谓之君子”，或者三国演义里讲王粲 “博闻强记，人皆不及”。现在的语言大模型在预训练中已经穷尽了互联网上所能找到的所有知识，熟悉一百多种语言，没有不涉及的领域和行业，是真正的博闻。在训练中，这些知识通过next token prediction的任务被压缩到神经网络的连接强度中。由于互联网上的知识出现次数往往多于一次，所以也能够形成有效的记忆，这就是强识。根据现在的研究大约是一个parameter能存储1bit的信息。那目前开源最大的LLama 405B就是储存了4千亿bit的信息。

过去包含现在的答案

按照我对中国传统文化的粗浅理解，最理想的时代应该是尧舜禹三代。所谓三代以降，礼乐崩坏。制度，仪轨和社会的不公都应该从过去（三代）寻找答案。这种对过去黄金时代的推崇在其他文明的典籍中也有体现。语言大模型也是从已有的知识中寻找答案，甚至这些知识都会有一个明确的time stamp，也就是训练数据的收尾时间。不可否认，现在比较新比较好的模型已经体现出一定的创造性，但这种创造性更多还是已有的概念和研究领域的连接，可能在设计研究题目或者学习不同领域知识上会有所帮助。但就我个人观察，这些模型还不能产生人类可以理解的全新的概念，并基于这些概念进行有创造力和实际价值的研究探索。即使是最新的o1模型对chain of thought的优化，也是让模型更好的利用已有的概念，知识和逻辑系统。

至少我个人认为，李约瑟之问同样适用于大语言模型。甚至李约瑟之问的一些思考没准可以联系到大模型的研究。这并不是我要贬低中国传统文化或者已有的语言模型，但这可能是古今有趣的映照，传统文化的“圣人”似乎借大模型的躯壳出现在21世纪。倘若一个人或者机器真的掌握了世上所有的知识，他/它又能为他人创造多少福祉。“圣人出而四海一”，希望不是一个美好的愿望。

9月22日于北京草就。

转载本文请联系原作者获取授权，同时请注明本文来自邵斌科学网博客。
链接地址：https://wap.sciencenet.cn/blog-927304-1452211.html

上一篇：今年起招收硕士生，博士生和访学学生
下一篇：我国科学家实现首个生成式DNA大语言模型

收藏 IP: 123.112.71.*| 热度|

CTB11的个人博客分享 http://blog.sciencenet.cn/u/CTB11

博文

李约瑟之问与大模型精选

当前推荐数：14 推荐人：刘钢 汪运山 武夷山 黄永义 郑永军 张鹏 晏成和 王涛 钟炳 孙颉 崔锦华 曾杰 杨正瓴 guest38022935

该博文允许注册用户评论请点击登录评论 (3 个评论)

邵斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

CTB11的个人博客分享 http://blog.sciencenet.cn/u/CTB11

博文

李约瑟之问与大模型 精选

当前推荐数：14 推荐人： 刘钢 汪运山 武夷山 黄永义 郑永军 张鹏 晏成和 王涛 钟炳 孙颉 崔锦华 曾杰 杨正瓴 guest38022935

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

邵斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

李约瑟之问与大模型精选

当前推荐数：14 推荐人：刘钢汪运山武夷山黄永义郑永军张鹏晏成和王涛钟炳孙颉崔锦华曾杰杨正瓴 guest38022935

该博文允许注册用户评论请点击登录评论 (3 个评论)