||
想象一下,你在榨油,头几桶原料哗哗出油,后来渣子越来越多,油却越来越少。按常识,原料加到一定量就该停手了吧?
可到了AI语言模型(LLM)这里,剧情完全反转:数据从1亿飙到1000亿 token,模型却越来越聪明,能聊天、写诗,甚至推理。
这不科学啊!有了大数据,为啥还要超大数据?这不是“榨不出油”还硬榨吗?今天,我们就来聊聊这背后的“暴力美学”,看看“大力出奇迹”的道理到底在哪。
从“够用”到“超多”:数据的暴力美学
先说说直觉。假如你学英语,背了5000个单词,日常对话基本没问题,再背5万,顶多多认识几个冷门词,收益递减,对吧?
语言模型也差不多:1亿 token(几百万句话)应该能学会语法、常见表达;再加1000亿,不就是重复啰嗦吗?
可现实啪啪打脸:GPT-3 用了 3000 亿 token,xAI 的 Grok 估计也没少吃数据,它们不仅会聊天,还能零样本回答问题、模仿莎士比亚。这就像榨油榨到最后,突然冒出一桶金光闪闪的“神油”!
语言的“表”与“里”:一场形式与意义的双人舞
要解开谜团,得先把语言拆成两块:形式和意义。
形式:爆炸的“花式玩法”
语言的形式是啥?就是词怎么拼、句子怎么组。比如:
“我喜欢吃苹果”→ “我爱啃苹果”→ “苹果我超喜欢”
词汇有限(比如10万个),但组合起来像炸裂:
20个词的句子可能有 10^100 种组合,比宇宙原子数还多!
超大数据就是个“形式收藏家”,专门收集各种长尾稀有表达。1亿 token 可能只见过“我喜欢吃苹果”,1000亿能看到“我喜欢吃代码”“我在月球吃榴莲”。
意义:有限的“内核”
意义是语言背后的内容,比如“正向情感 + 食物”。核心概念数量有限,几百万句就能覆盖。再多就是信息冗余:说法变了,意思没变。
比如:“我饿了”“我肚子饿”“我好饿”——意思都一样。
超大数据的“奇迹”:形式撑起的门面1. 长尾模式:捡漏大师
1亿 token 学会了“我喜欢吃苹果”,但1000亿能学“吾乃苹果之王”。这就是所谓的“长尾模式”:稀有但关键,决定模型的全能和幽默。
2. 大模型的“大胃口”
LLM 动辄百亿参数,像个“大胃王”,小数据喂不饱。研究发现:
性能 ∝ log(数据量) × log(参数量)
此所谓 scaling law,性能与模型大小以及数据量(的对数)成正比。大数为王。
3. 冗余的“磨刀石”
你觉得重复没用?模型却用它打磨概率分布。“我喜欢”重复千万次,形式变来变去,模型因此更稳健、泛化更强。
4. 涌现能力:量变到质变
最神奇的是,模型不是背答案,而是量大到一定程度后,突然“开窍”:写代码、做推理、玩逻辑。
就像水烧到100°C突然沸腾,涌现不是靠记,是靠量。
“暴力美学”的真相:形式为主,意义为辅
超大数据学的是啥?大多是形式!
形式驱动:语句更流畅、多样,Groks 开始说古文、讲笑话。
意义饱和:知识早在几亿 token 内就“榨干”了。
那意义饱和后,形式长尾有啥用?
用户体验:机器人不再千篇一律,富于表达的多样性。
鲁棒性:面对口音、方言、俚语,理解自如。
动态知识:意义饱和不能涵盖篇章结构和长上下文的依赖关系(例如因果关系),超大数据赋能动态知识。
代价问题:1000亿token里,可能90%都只是说法不一样。
但这90%,撑起了我们对AI的“拟人感”。
为啥不聪明点,非要“暴力”?
你问:“不能少点重复、精挑细选?”
有道理!但在现实中:
GPU猛,钱多,暴力能快出效果;
数据还没“完全饱和”,性能还在涨;
想要“聪明处理”?例如,推理思维链再生数据后训练现在是趋势,也表现出惊人的效果,但“大力”总是更稳妥的奠基。
结语:从榨油到炼金
所谓“暴力美学”,其实是语言形式的胜利。基本意义早就饱和,而模型聪明,是靠你没见过的表达。超大数据的“大力出奇迹”不是盲目暴力,而是抓住了语言的双重本质:
形式爆炸:需要超多样本填补长尾,让模型会“花式表达”。
动态知识:需要超多上下文挖掘篇章关系,让模型会理解动态场景并“讲道理”。
【相关】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-4-26 11:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社