||
这个问题是研究过大模型原理的人都容易卡住的一个“门槛”。这不是简单的“监督 vs 非监督”分类问题,而是关涉信息结构、任务表征和隐式监督在超大规模训练下发生的质变,或曰能力涌现。我们可以一点点拆开来看,为什么一个看似简单的“预测下一个词”(NTP)目标的GPT预训练,就能奇迹般地涵盖几乎所有任务的规律,成为如此强大的AI通用引擎。
一、监督与非监督的界限,在语言世界里是模糊的传统意义上,“监督学习”要求明确定义的标签,比如输入图像x → 输出类别y;而“非监督学习”没有标签,只学习数据的分布。
但语言数据本身的结构非常特殊:它天然是有标注、有方向、有层级的序列。
怎么讲?
一句自然语言样本“把这句话翻译成英文:你好,世界。”其实包含了:
明确的指令(task definition);
输入(中文);
目标输出(英文)。
也就是说,语言天然带着任务标签的自解释性(self-descriptiveness)。人类语言是世界中唯一一种“带注释的训练数据”:我们说什么、干什么,常常把任务和答案包在同一个上下文里。
这就是为什么,当GPT读到海量互联网文本时,它并不是在看“无标签”的数据,而是在接触一个由人类自带监督信号构成的世界。
二、“预测下一词”其实隐式地包含了任务学习形式上,NTP目标只是让模型最小化下一词的预测误差,但语料中的每个词并非随机,它是对“前文语境”的自然回应。
这种回应关系,本质上是一种输入–输出映射。语言的句法结构和语义结构,使得很多“下一个词”其实就是任务答案。
例如模型读到:
“问:地球绕什么转? 答:”
此时的“下一个词”正是答案“太阳”。对模型来说,这与传统监督任务“输入问题,输出答案”没有本质区别。
互联网语料充满这种结构化上下文:对话、教程、代码注释、FAQ、论坛问答、维基解释……每一个都是微型的“监督样本”。因此,NTP在统计意义上是非监督,但在信息意义上是隐式多任务监督。
三、语言模型的“任务统一”,来自语义层面的分布对齐换句话说,NTP训练不是在学“每个任务”,而是在学各类任务所共享的统计结构。不同任务的表面形式不同,但它们都服从同一种语言规律:输入部分与输出部分在语义空间上可以也必须“对齐”。
大模型在庞大的语料中反复看到各种输入—输出耦合结构,无论是翻译、解释、命令、叙述还是对话,它都会在参数空间中学习到一种通用的对齐机制:——当句子出现某种语义模式时,如何生成匹配的下文。
这一机制的通用性来自两个事实:
1️⃣ 语言分布的高度可组合性:同一语义关系可以出现在不同任务语境中。2️⃣ Transformer结构的自注意力特性:它能在上下文中自动建立输入—输出的关联,无需显式标签。
因此,当你给GPT一个新任务描述时,它并不是瞬间产生灵感,而是发现:这个模式在它的语言世界中早就存在,只是被唤起了。
四、“任意输入到任意输出”的关键:语言包容一切人类社会的几乎所有活动——科学、艺术、计算、逻辑推理、情绪表达——都通过语言描述。语言是人类世界的通用接口。当模型学会了语言,它实际上学会了所有这些活动的符号层映射。
这就是为什么GPT能“零样本”应对新任务:并不是它真的“理解”了任务规则,而是因为任务本身就在它学过的语言分布中以某种形式出现过。“任意输入到任意输出”的秘密,根子在语言的普遍性。
从这个意义上说,GPT并不是学会了所有任务,而是学会了一种将任务描述映射到响应分布的通用函数。当语言成为所有任务的共同中介时,“监督”与“非监督”的界限便在语义层上被抹平。
在语言世界中,语料本身携带隐式的监督信号; “预测下一词”是一种最大似然的世界建模; 而世界的规律通过语言的统计分布得以反映。
因此,GPT的目标函数虽然简单,但它优化的实际上是一个跨任务、跨语境的世界概率模型。这就是为什么,看似“非监督”的NTP,在足够规模下会展现出监督学习的通用性。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-11-10 17:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社