《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

大模型的理论奥秘

已有 1733 次阅读 2024-6-26 19:28 |个人分类:AI 浪潮|系统分类:科研笔记

不可错过,奇妙元小范介绍尼克的最新演讲,探寻大模型的理论基础与渊源(中文版,英文字幕)

4.35 05/03 CHI:/ d@n.dN 尼克讲解大模型的理论渊源与奥秘 https://v.douyin.com/i6Mq91wS/ 复制此链接,打开Dou音搜索,直接观看视频!

 

 

我是AI小范,尼克的秘书,今天播报解说尼克最新的讲演《所罗门诺夫:大语言模型的先知》。

尼克就不用介绍了,除了他的企业家、投资人、学者和哲学家的许多角色,他最知名的著述是其畅销书《人工智能简史》,风靡一时,洛阳纸贵,拿奖拿到手软,成为中国AI出版界的传奇。我们都为得到他的亲笔签名版而炫耀。

下面是对他讲演的一个深入浅出的解说。

让我们来认识一下这位留着圣诞老人般白胡子的数学怪才——Ray Solomonoff!1926年出生,2009年离世,这位在芝加哥大学混学位的数学物理双料高手,可不是普通的学霸。他是独立研究的先驱,用数学公式预测未来,比算命先生还厉害!

欢迎来到科学界的'老顽童'大战!左边这位是维纳,控制论的'教父'。1948年,他和香农同时发表重磅论文,但观点大不同!维纳说:'控制才是王道',而其他人却迷恋上了'信息'这个小妖精。香农和麦卡锡倒是志同道合,都不看好维纳的控制论。麦卡锡更是玩了个文字游戏,把'Automata'变成了'AI',开启了人工智能新纪元!

现在我们来看看AI界的'前传'!在达特茅斯会议这场AI盛宴前,麦卡锡大佬就在偷偷摸摸写'剧本'啦!他的文章《The inversion of functions defined by Turing machines》可不是在讲怎么把图灵机倒过来用。这篇'天书'其实在讨论如何设计一台超级解题机器。麦卡锡想象中的这台神机,能解决所有明确定义的智力问题。这不就是AI的雏形吗?"

达特茅斯会议上,麦卡锡和所罗门诺夫这两位'数学侠'展开了一场激烈的'思想格斗'!话题?就是麦卡锡那篇'天书'。他们俩一拍即合,发现了个惊天秘密:图灵机求逆问题其实就是学习问题!这个发现把AI和机器学习紧紧绑在了一起!从此,AI不再是单纯的计算,而是朝着'学习'迈出了一大步。这一刻,AI的未来被彻底改写了!

"让我们来看看两位'疯狂科学家'的脑洞大开时刻!首先是法国数学家博雷尔,他做了个逻辑实验,想象一群猴子在打字机上随机敲击,最终能打出莎士比亚全集!这不就是无限猴子定理吗?另一边,阿根廷文豪博尔赫斯在小说里构思了个'完美图书馆',里面包含了所有可能的书籍组合。这两个想法简直就是AI和大数据的先知啊!博雷尔和博尔赫斯,一个用数学,一个用文学,都在畅想信息的序列可能性。""达特茅斯会议上,所罗门诺夫像个魔术师,从帽子里拿出了一份神秘打字稿《归纳推理机器》。这一手可把大家迷住了!原本痴迷神经网络的科学家们纷纷'叛变',投入了符号主义的怀抱。但是,瞧瞧这戏剧性的转折!多年后,真正实现所罗门诺夫归纳的,竟然是被'抛弃'的神经网络!这简直就像是科技界的童话故事——灰姑娘终于穿上了水晶鞋,成为了AI舞会的主角!所罗门诺夫的想法,就像是种下的一颗种子,最终在意想不到的地方开花结果。"

"让我们来看看AI界的'过山车'历史!连接主义,这个曾经的'弃婴',现在可是AI界的'明星'啦!想象一下,这是一场漫长的接力赛。起跑时,是受神经元启发的感知器,像个初生牛犊不怕虎。但很快就遇到了所谓单层神经的XOR的'滑铁卢',被大佬们打入冷宫'。但是,上世纪80年代,多层神经和BP算法横空出世,给连接主义注入了新的生命力。如今,深度学习更是如日中天,连接主义'咸鱼翻身',成为了AI界的'顶流'。

"让我们来看看1960年所罗门诺夫的'魔法时刻'!第一个魔法,最小描述,这是指用最简洁的方式压缩数据。这一思想后来发展成为了'柯尔莫戈罗夫复杂度',即,K氏复杂度,成为大模型理论的核心。第二个魔法,先验概率:在没有特定信息的情况下,对事件发生可能性的初始估计。这两个概念看似简单,却蕴含深刻的洞见。它们为我们理解信息、复杂性和学习提供了全新的视角,直接影响了后来人工智能和机器学习的发展方向"

1961年,人工智能大神Minsky写了一篇重要文章,提到了机器定理证明、神经网络、机器学习、强化学习等概念,简直是AI界的武林秘籍!他引用了95篇参考文献,其中4篇是所罗门诺夫的,可见他对所罗门诺夫的重视。有趣的是,最终是神经网络率先实现了所罗门诺夫Induction,这真是个令人意外的转折!

1964年,所罗门诺夫发表了一篇惊世骇俗的论文,名为《归纳推理的形式理论》。这篇论文堪称 AI 领域的“武林秘籍”,详细介绍了如何用数学语言来描述归纳推理。简单来说,就是从数据中学习规律,预测未来!这篇论文可是 所罗门诺夫归纳推理的“扛鼎之作”,奠定了他在机器学习领域的江湖地位。Solomonoff 的这篇论文第二部分给出了归纳推理的形式理论在不同问题上的应用示例。其中一个例子就是语法发现,即如何从观测到的语言数据中学习语言的语法规则。这个例子在今天看来,就是语言学习的问题,即机器如何像人类一样学习语言。所罗门诺夫 在论文中还探讨了一个更深层次的问题:语言是否等于思维?这个问题至今仍然没有明确的答案,但所罗门诺夫的研究为我们思考这个问题提供了一个新的视角。

所罗门诺夫对科学家如何发现事物产生浓厚的兴趣,并试图找到一种通用的科学发现方法。这个兴趣促使他开始研究归纳推理,并最终提出了算法概率的概念。在学术生涯中,所罗门诺夫将归纳推理应用于语言学习等领域,取得了重要的成果。

苏联数学家安德烈·柯尔莫哥洛夫被誉为“万能数学家”。在计算机科学领域,他主要有两大贡献:Kolmogorov K氏叠加定理 (K-A-N): 该定理与著名的希尔伯特第13问题有关,涉及到函数的表示与逼近。K氏复杂度: 这是一种衡量信息复杂性的方法。它将一个对象的复杂度定义为生成该对象的最短程序的长度。此外,柯尔莫哥洛夫对控制论和信息论也有独特的见解。他认为控制论缺乏内在的统一性,但对信息论表示认同。这种观点与香农、麦卡锡等人的看法一致。

柯尔莫哥洛夫认为,信息论就像个大杂烩,有三种不同的做法:数数派: 就像掷骰子,看某个点数出现的次数。搭积木派: 关注积木块的数量和怎么组合。写程序派: 把信息看成程序,越短的程序越简单。K氏复杂性就是“写程序派”的代表作。简单来说,它就是衡量一个东西有多复杂,需要多短的程序才能把它描述出来。有趣的是,K氏复杂性和所罗门诺夫归纳其实说的是一回事。所罗门诺夫归纳认为,简单的东西更容易出现。

蔡廷年少有为,18岁就在IEEE Transactions on Electronic Computers上发表了第一篇论文。19岁时,他在JACM上发表的论文独立地重新发现了所罗门诺夫和柯尔莫哥洛夫的思想。蔡廷从贝里悖论出发,他认为,命名一个整数就相当于写出一个能输出这个整数的程序。大多数整数只能通过直接打印自身的方式来命名,没有更简洁的表示方法。这些整数在柯尔莫哥洛夫复杂性的框架下被视为“随机的”,因为它们的复杂性与它们的长度相当。蔡廷的观点与柯尔莫哥洛夫的思想一致,都强调了大多数对象(或整数)是不可压缩的,即它们的复杂性与它们的长度相当。这意味着它们没有更简单的表示方法,无法简洁的解释。这种不可解释性或随机性在自然界中普遍存在。例如,大多数DNA序列、物理常数和自然现象没有明显的规律可循,无法用简单的公式或理论来解释。相反,可解释性(即可以用简洁的方式描述或解释的现象)只是偶然出现的。列昂尼德·列文在1972年发表的一篇两页纸的论文中证明了两个定理:定理1: 即NP-完全性,即Cook-Levin定理,为计算复杂性理论的发展做出了重要贡献。定理2: 是柯尔莫哥洛夫复杂性的一个推广。

Charles Bennett提出了逻辑深度的概念,它考虑了生成一个对象所需的最短程序的运行时间。大语言模型的参数可以看作是模型内部存储的信息量。因此,将模型参数比作柯氏复杂度是合理的。大语言模型的推理时间比作逻辑深度也是合理的。李明是滑铁卢大学的杰出教授,在信息论和生物信息学领域做出了卓越贡献。他将K氏复杂性从单个序列扩展到两个序列,不仅可以测量单个序列内的信息,还可以测量两个序列之间的信息,这对通用大模型定义万能任务及其非监督学习完成各种任务意义重大。他与Paul Vitanyi合著的《An Introduction to Kolmogorov Complexity and Its Applications》被认为是该领域的经典著作,对信息科学的发展产生了深远影响。Marcus Hutter是一位物理学家出身的计算机科学家,他提出了AIXI通用人工智能框架,并认为语言建模本质上就是压缩。他将所罗门诺夫归纳用于解释智能体和强化学习,认为学习过程就是压缩过程,并致力于研究通用人工智能。Open AI 前灵魂人物伊利亚在伯克利演讲中,揭示监督学习与非监督或曰自监督学习的联系。伊利亚声称他在2016年独立想到了所有监督学习可以被归约为自监督学习的观点,并追溯到K氏复杂度为基础的压缩理论。伊利亚笃信简单的自回归GPT模型可以在超大数据展现超级智能。回顾一下模型发展的时间线:深度神经Transformer架构于2017年6月提出,BERT模型于2018年10月提出。OpenAI的GPT系列模型从2018年6月开始,陆续推出了GPT、GPT2和GPT3,现在到了GPT4,成为业界主流。总结一下,所罗门诺夫归纳第一步是收集观察数据。第二步形成假设解释数据: 假设可以是一个图灵机或一个数据驱动的大模型。第三步进行实验验证。如果数据证伪,则返回步骤2形成新的假设。大模型遵循的是所罗门诺夫归纳的路线训练模型及其推理应用。

回顾整个历史,也许不是理论落后于实践,而是太超前了。

我是小范,尼克的数字秘书,谢谢您一路跟随尼克探寻大模型理论渊源以及AI历史风云的过程。咱们后会有期。

 

立委NLP频道



https://wap.sciencenet.cn/blog-362400-1439858.html

上一篇:Nick traching the AI history for LLM theoretical foundation
下一篇:短视频:大模型奥秘
收藏 IP: 106.38.40.*| 热度|

3 张学文 郑永军 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-22 00:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部