博文

Grok: 大力出奇迹的背后

已有 1124 次阅读 2025-3-28 06:10 |个人分类:AI 浪潮|系统分类:科普集锦

想象一下，你在榨油，头几桶原料哗哗出油，后来渣子越来越多，油却越来越少。按常识，原料加到一定量就该停手了吧？

可到了AI语言模型（LLM）这里，剧情完全反转：数据从1亿飙到1000亿 token，模型却越来越聪明，能聊天、写诗，甚至推理。

这不科学啊！有了大数据，为啥还要超大数据？这不是“榨不出油”还硬榨吗？今天，我们就来聊聊这背后的“暴力美学”，看看“大力出奇迹”的道理到底在哪。

从“够用”到“超多”：数据的暴力美学

先说说直觉。假如你学英语，背了5000个单词，日常对话基本没问题，再背5万，顶多多认识几个冷门词，收益递减，对吧？

语言模型也差不多：1亿 token（几百万句话）应该能学会语法、常见表达；再加1000亿，不就是重复啰嗦吗？

可现实啪啪打脸：GPT-3 用了 3000 亿 token，xAI 的 Grok 估计也没少吃数据，它们不仅会聊天，还能零样本回答问题、模仿莎士比亚。这就像榨油榨到最后，突然冒出一桶金光闪闪的“神油”！

语言的“表”与“里”：一场形式与意义的双人舞

要解开谜团，得先把语言拆成两块：形式和意义。

形式：爆炸的“花式玩法”

语言的形式是啥？就是词怎么拼、句子怎么组。比如：

“我喜欢吃苹果”→ “我爱啃苹果”→ “苹果我超喜欢”

词汇有限（比如10万个），但组合起来像炸裂：

20个词的句子可能有 10^100 种组合，比宇宙原子数还多！

超大数据就是个“形式收藏家”，专门收集各种长尾稀有表达。1亿 token 可能只见过“我喜欢吃苹果”，1000亿能看到“我喜欢吃代码”“我在月球吃榴莲”。

意义：有限的“内核”

意义是语言背后的内容，比如“正向情感 + 食物”。核心概念数量有限，几百万句就能覆盖。再多就是信息冗余：说法变了，意思没变。

比如：“我饿了”“我肚子饿”“我好饿”——意思都一样。

超大数据的“奇迹”：形式撑起的门面1. 长尾模式：捡漏大师

1亿 token 学会了“我喜欢吃苹果”，但1000亿能学“吾乃苹果之王”。这就是所谓的“长尾模式”：稀有但关键，决定模型的全能和幽默。

2. 大模型的“大胃口”

LLM 动辄百亿参数，像个“大胃王”，小数据喂不饱。研究发现：

性能 ∝ log(数据量) × log(参数量)

此所谓 scaling law，性能与模型大小以及数据量（的对数）成正比。大数为王。

3. 冗余的“磨刀石”

你觉得重复没用？模型却用它打磨概率分布。“我喜欢”重复千万次，形式变来变去，模型因此更稳健、泛化更强。

4. 涌现能力：量变到质变

最神奇的是，模型不是背答案，而是量大到一定程度后，突然“开窍”：写代码、做推理、玩逻辑。

就像水烧到100°C突然沸腾，涌现不是靠记，是靠量。

“暴力美学”的真相：形式为主，意义为辅

超大数据学的是啥？大多是形式！

形式驱动：语句更流畅、多样，Groks 开始说古文、讲笑话。
意义饱和：知识早在几亿 token 内就“榨干”了。

那意义饱和后，形式长尾有啥用？

用户体验：机器人不再千篇一律，富于表达的多样性。
鲁棒性：面对口音、方言、俚语，理解自如。
动态知识：意义饱和不能涵盖篇章结构和长上下文的依赖关系（例如因果关系），超大数据赋能动态知识。
代价问题：1000亿token里，可能90%都只是说法不一样。

但这90%，撑起了我们对AI的“拟人感”。

为啥不聪明点，非要“暴力”？

你问：“不能少点重复、精挑细选？”

有道理！但在现实中：

GPU猛，钱多，暴力能快出效果；
数据还没“完全饱和”，性能还在涨；
想要“聪明处理”？例如，推理思维链再生数据后训练现在是趋势，也表现出惊人的效果，但“大力”总是更稳妥的奠基。

结语：从榨油到炼金

所谓“暴力美学”，其实是语言形式的胜利。基本意义早就饱和，而模型聪明，是靠你没见过的表达。超大数据的“大力出奇迹”不是盲目暴力，而是抓住了语言的双重本质：

形式爆炸：需要超多样本填补长尾，让模型会“花式表达”。
动态知识：需要超多上下文挖掘篇章关系，让模型会理解动态场景并“讲道理”。

【相关】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://wap.sciencenet.cn/blog-362400-1479629.html

上一篇：《“蜜蜂巢”里的子弹：JFK档案解密后》
下一篇：Grok：大模型为什么要超大数据？（4o配图）

收藏 IP: 108.65.198.*| 热度|

当前推荐数：2 推荐人：张珑 王安良

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

李维

扫一扫，分享此博文

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

Grok: 大力出奇迹的背后

当前推荐数：2 推荐人：张珑 王安良

该博文允许注册用户评论请点击登录评论 (0 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

Grok: 大力出奇迹的背后

当前推荐数：2 推荐人： 张珑 王安良

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

当前推荐数：2 推荐人：张珑王安良

该博文允许注册用户评论请点击登录评论 (0 个评论)