博文

Token为什么翻译为词元？

已有 4842 次阅读 2026-2-26 21:53 |个人分类:Computational Linguistics|系统分类:观点评述

Token（词元）术语详解：来源、内涵、定义

Token译为词元，是语言学、计算语言学、自然语言处理（NLP）领域的核心基础术语，其内涵从符号学、理论语言学的原生概念，逐步延伸至计算语言学、大模型技术场景，最终形成了国内学界统一的“词元”译法。而Type与Token是相伴而生的一对经典二分术语，是现代语言学、语料库语言学、NLP技术的底层分析工具。

一、Token的术语源头与中文译法演变

1. 英文词源与跨学科起源

Token的英文原生词源为古英语tācen，本义是符号、标记、信物、表征，核心内涵是“承载特定意义的具象化符号实例”。

该术语正式成为学术概念，最早源于美国逻辑学家、符号学创始人查尔斯·桑德斯·皮尔士（Charles Sanders Peirce） 在1906年的符号学理论体系。皮尔士将符号分为两大范畴：Type（类型） 是抽象的、规约性的符号原型；Token（实例） 是Type在具体场景中的物理实现与个体实例，这是Type-Token术语对的正式起源。

随后，这对术语被结构主义语言学吸纳，与索绪尔提出的语言（Langue，抽象的社会规约性语言系统）/言语（Parole，具体的个人语言使用行为） 二分体系高度契合，成为理论语言学分析语言符号的核心工具。

2. 计算语言学术语type-token

20世纪中期，随着机器翻译、语料库语言学兴起，该术语进入计算语言学领域，成为文本处理的基础概念，字型、字例，词型、词例，句型、句例等各个层级的语言单位在进行计量时，均使用了type-token这对术语。

以中文句子为例：“我吃苹果，我吃梨。”

分词后的Token序列：我、吃、苹果，我、吃、梨。
Token总数（形符数）：6个；
Type总数（类符数）：4个（去重后为：我、吃、苹果、梨）；

3. 大模型时代的token

2018年预训练语言模型兴起后，Token进一步成为大语言模型的核心底层单元，进入大众视野。

在大语言模型中，tokenization（词元化）是将一个文本分割成多个 token 的过程。通常，token 是指文本中具有独立意义的最小单位，可以是字符、单词、符号、数字或子词。

词元化过程：词元化是文本预处理的重要步骤，在这一步中，文本被分割成一个个的 token，通常包括：

字符：如 a,b,c, 你,我
单词：如“apple”，“dog”，“run”
标点符号：如逗号、句号、问号等
数字：如“123”，“45.67”
子词（subwords）：在一些先进的 NLP 模型（如 BERT、GPT）中，单词可能会被进一步拆分为更小的单元（例如，字节对编码（BPE）技术拆分“unhappiness”为“un”和“happiness”两个子词），实际上接近于“语素”，但是工业界对“语素”不熟悉，且有时甚至比英语的语素还小，故未能采用。

二、中文译法的演变：从多译并存到“词元”的规范统一

在中文语境中，Token的译法经历了长期的演变，不同学科场景曾出现多个译法，最终在NLP/大模型时代形成了“词元”的学界共识：

译法	适用场景	局限性
形符	传统语料库语言学（与“类符Type”对应）	仅能体现“文本形式实例”的属性，无法覆盖计算语言学中“最小处理单元”的核心内涵
例符/标记	理论语言学、符号学	过于泛化，无法锚定语言处理场景的专属含义，易与通用的“标记”概念混淆
令牌/记号	计算机编译原理、密码学	完全脱离语言学属性，与NLP场景的内涵无关，易造成认知偏差
分词/词片	大模型大众科普语境	属于概念误用，分词是生成Token的过程，而非Token本身；子词只是Token的一种形态，无法覆盖其全部内涵
词元	计算语言学、NLP、大模型技术（当前规范译法）	精准锚定了“语言处理的最小基本单元”的核心内涵，符合中文科技术语的构词习惯，是当前全国科学技术名词审定委员会、国内学界统一的规范译法

三、译为“词元”的核心理由与合理性

“词元”能成为最终的规范译法，核心在于其完美适配了Token在语言学与计算领域的双重内涵，解决了其他译法的局限性：

（1）贴合核心属性：锚定“最小基本单元”的本质

“元”在中文科技术语中，本义是“最基础、不可再分的基本单元”（如音元、语素元、数据元）。在NLP场景中，Token是文本处理、模型计算的最小不可再分单元，无论其形态是完整的词、子词、单个汉字/字符，“元”字都能精准概括其“基础单元”的核心属性，完美适配从“词级分词”到“子词分词”的技术演变。

（2）区分场景歧义：专属锚定语言学/NLP场景

用“词元”替代“标记、令牌、例符”等泛化译法，专门划定了该术语在语言处理场景的专属含义，避免了与编译原理、哲学、日常语境中的Token概念混淆，形成了清晰的术语边界。

（3）兼顾理论与应用：覆盖从语言学到工程的全场景

既保留了“词”的语言学本源，体现其作为语言符号的本质；又通过“元”字，适配了工程场景中“最小计算单元”的技术内涵，实现了理论语言学与计算语言学的术语统一。

（4）符合术语规范：国内学界与官方机构的统一共识

全国科学技术名词审定委员会在《计算机科学技术名词（第三版）》《语言学名词》中，已将NLP/计算语言学场景下的Token规范译为“词元”；ACL、EMNLP等顶会的中文译稿、国内高校计算语言学专业教材，均已统一采用“词元”译法。

（5）缺陷与不足

type和token在计算语言学中，（类）型和（实）例已经是非常成熟的翻译用法。单独将token翻译为词元，其实有混淆类型和实例的危险性！

主要原因在于，目前大语言模型的tokenization的工作，做到了sub-word（子词）的层级，用“字”或“词”都不能直接对应，实质上接近“语素”。但是“语素”和“子词”，一个过于语言学，一个不够学术化，而用接近于“词”的“词元”来表示，大家感觉最为贴合。其实在不同的模型系统中，这些token对应的type才更重要，到底使用哪种层级的语言单位。

所以，英语的token如果不翻译没有问题，英语中本来就是为了弱化单位的类型，而只计量实例。到汉语使用“词元”这个术语，在今天更接近“子词”这个type（类型）的语言单位，而在token（实例）上反而缺失了对应术语，容易引起理解上的混乱。

因此，如果给它一个更好的翻译，“实例”没有“词”的意味，也许“词元实例” 是更贴切的，就是冗长了一些。

四、常见认知误区澄清

误区1：Token就是“分词”，大模型里的Token就是中文的“字”

澄清：Tokenization是将文本拆分为Token的过程，而非Token本身；大模型中的Token形态多样，中文场景下可能是单个字，也可能是双字词、多字词、子词片段，并非固定为“字”。Token的核心是“模型词表中的最小计算单元”，而非单纯的语言学分词结果。

误区2：Type就是“词”，Token就是“词的出现次数”

澄清：Type的范畴远大于“词”，它可以是词、语素、字符、标点符号，甚至是模型学习到的固定短语片段；Token也不是单纯的“次数”，而是每一次具体出现的实例本身，次数只是Token的统计属性。

误区3：大模型时代，Type-Token的传统语言学定义已经失效

澄清：大模型技术只是延伸了Token的工程内涵，并未否定其原生的语言学定义。模型词表中的每一个条目，本质就是一个Type；文本输入、生成过程中每一个出现的单元，就是对应Type的Token实例。Type-Token的二分逻辑，依然是大模型语言处理的底层语言学根基。

转载本文请联系原作者获取授权，同时请注明本文来自李斌科学网博客。
链接地址：https://wap.sciencenet.cn/blog-39714-1523571.html

上一篇：宇航人文发凡

收藏 IP: 222.95.83.*| 热度|

当前推荐数：1 推荐人：王安良

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

李斌

扫一扫，分享此博文

全部作者的精选博文

• 暑期学院三届心得

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士希望在这里留下学术的足迹

博文

Token为什么翻译为词元？

当前推荐数：1 推荐人：王安良

该博文允许注册用户评论请点击登录评论 (0 个评论)

李斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

Token为什么翻译为词元？

当前推荐数：1 推荐人： 王安良

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士希望在这里留下学术的足迹

当前推荐数：1 推荐人：王安良

该博文允许注册用户评论请点击登录评论 (0 个评论)