刘伟
人工智能大模型的根:Word 2 Vec 的基本原理 精选
2025-3-5 11:44
阅读:4837

复杂的事物往往是由简单的原理发源的,目前流行的大模型也不例外,未来参考大模型将如同过去查字典一样稀松平常,现在的大模型却是一直在参考你的、我的、他的大家的知识和经验,下面我们将用一个生活中的小故事来通俗解释人工智能大模型的源头---Word2Vec 的基本原理(简单的说,就是把字词变成属性矢量投射到欧式空间产生关系)。

假设你是语言学习机,目标是学会“词语的秘密”

1、你的任务:理解词语的关系

比如,你知道“苹果”是一种水果,“香蕉”也是一种水果。那么当看到“苹果”时,你应该能联想到“香蕉”,因为它们属于同一类。

2、Word2Vec 的训练方式:通过“猜词游戏”学习

假设给你一本小说的段落(比如《哈利波特》),你的工作是通过以下两种方式“猜词”:

(a) CBOW 方式(根据上下文猜词)

输入:一段话中的部分词语(比如“魔法石被__藏在__”); 

任务:根据前后文(“被”“藏在”)猜测中间缺失的词(比如“哈利”); 

学习效果:你会发现“魔法石”经常和“哈利”“伏地魔”等角色一起出现,从而把这些词在脑海中标记为“相关”。

(b) Skip-Gram 方式(根据词猜上下文)

输入:一个词(比如“猫”);

任务:预测这个词前后可能出现的词(比如“喵”“老鼠”“沙发”);

学习效果:你会意识到“猫”通常和“喵”“抓”“宠物”等词关联,因此这些词的向量会在你的大脑中离得很近。

3、向量空间的秘密

每个词变成一个坐标点:比如“国王”对应坐标 (1,2,3),而“男人”对应 (1,2.5,4)。 距离越近=关系越紧密,如果“国王”和“王子”在坐标上很接近,说明它们经常一起出现或有相似含义。

 神奇的向量运算:比如 `国王 - 男人 + 女人 ≈ 皇后`(类似数学中的向量加减法)。

  如果模型学得好,即使没见过“皇后”,也能通过已知的词推断它的位置。

4、训练的诀窍:用“排除法”快速学习

负采样(Negative Sampling):假设你猜词时,不仅要记住正确的答案(比如“哈利”),还要记住哪些词不可能出现在这里(比如“苹果”“电脑”),这就像考试作弊被抓住一次,下次就不会犯同样的错误。 局部更新,每次只调整一点点参数,而不是从头再来,这样学习效率极高。

5. 最终成果:词语的“超能力”

举个例子,输入“上海”,模型能输出“东方明珠”“外滩”“陆家嘴”等关联词,输入“北京”,模型可能给出“故宫”“长城”“雾霾”等词,即使没学过“深圳”,但看到“深圳”时,模型也能根据“中国”“城市”“科技”等词的向量,大致定位它的位置。

Word2Vec 的本质是通过大量文本数据,让计算机像人类一样通过上下文“猜词”,逐渐掌握词语之间的隐藏关系。最终,每个词都被编码成一个高维空间的坐标,相似的词在空间中紧紧抱团,形成一张“语义网”。

无标题2.jpg

转载本文请联系原作者获取授权,同时请注明本文来自刘伟科学网博客。

链接地址:https://wap.sciencenet.cn/blog-40841-1476055.html?mobile=1

收藏

分享到:

当前推荐数:3
推荐到博客首页
网友评论1 条评论
确定删除指定的回复吗?
确定删除本博文吗?