“Token”中文翻译探微:为何“分词”译名更具合理性
近年来,人工智能领域的快速发展,使得“token”一词成为技术讨论中的高频概念。然而,这一术语的中文译名在学术界和技术社区中尚未达成明确共识,常见的“令牌”、“词元”等译法各有侧重,也各有局限。本文将提出一个新的视角:或许,最直观、最符合语言逻辑的译名,应该是“分词”。
一、从“分词器”到“分词”:中文构词逻辑的自然延伸
“Tokenizer”在中文中被普遍译为“分词器”,这一译名已被广泛接受和使用。从中文的构词习惯来看,动词性名词后缀“-器”,其核心含义在于指明该工具的功能——即“进行某种动作的器具”。
- 编码器:实现“编码”功能的工具
- 解析器:实现“解析”功能的工具
- 分词器:实现“分词”功能的工具
那么,分词器的产出物是什么?按照中文的构词逻辑,工具的产出自然就是其功能所指向的名词形式。因此,分词器所产出的,理应就是分词。这是一种清晰、自洽的语言对应关系,无需引入外来的、可能产生歧义的新术语。
二、“词元” 译名的语义偏差:“XX 元” 构词的本义与错位
目前流行的 “词元” 译法,采用的是汉语中后位 “元” 构词,即 “某类对象 + 元”,典型例子如纪元、单元、基元、体元、面元等。
这类结构里的 “元”,语义非常稳定,通常表达:
基本、不可再分的单元
系统本身固有的、原生的构成单位
静态、客观存在的结构节点,而非加工后得到的片段
例如:
单元:整体被划分后固有的基本单位;
基元:构成某一体系的基础原生单元;
体元 / 面元:空间、几何结构中天然划分的基本单元;
纪元:历史时间系统中固有的时间单元。
由此可见,“词元” 从字面和构词习惯上,会被天然理解为:
词语或语言系统内部,固有的、原生的、基础的构成单元,接近语言学中的 “语素、词素”,是文本在未被处理前就客观存在的语言单位。
但这与大模型语境下 token 的原意完全不符:
token 并非文本自带的 “原生单元”,而是经过分词器算法切分后得到的处理结果,是为计算服务而人为划分的工程单元。同一个词语,在不同词表下会被切成不同 token,它是 “切分后的片段”,而非 “词语的原生成分”。
因此,“词元” 从构词根源上就存在语义误导,把模型预处理后的产物,误导向了语言系统的固有结构单元,与 token 的实际所指大相径庭。
三、“分词”作为名词的合理性与准确性
“分词”一词在中文中本身就可以是名词。这在语言学中并非孤例,许多动词都可以通过“动作转指结果”的机制,转变为指代动作产物的名词。
- 动词用法:“我们需要分词这段文本。”
- 名词用法:“这个模型处理了上万个分词。”
“Token”的本质,是文本经过处理后得到的、可供模型计算的基本片段。“分词”一词完美地捕捉了这一内涵:它既是“分”这个动作的体现(文本被切分),也指明了它是“词”(或更广义的语言片段)这一单位。这比带有特定领域色彩的“令牌”(易联想至安全领域)或较为抽象的“词元”更为具体、直观。
四、与现有技术术语的和谐性
采纳“分词”作为译名,有助于构建一个更加统一、自洽的中文AI术语体系。
英文术语 | 当前常见中文译名 | 基于“分词”的译法体系
|
Token | 令牌、词元 | 分词 |
Tokenization | 令牌化、词元化 | 分词 |
Tokenizer | 分词器 | 分词器 |
可以看到,采用“分词”能使核心概念与工具名称保持高度一致,降低了学习和理解的门槛。当用户听到“分词器”时,能很自然地推断出其产出是“分词”;反之,看到“分词”时,也能立刻联想到它来自“分词器”的处理。这种术语的透明性,对于知识的传播和教育至关重要。
五、超越“切分词语”:广义的“分词”理解
有人可能会质疑:“分词”听起来只适用于词语(word),而Token可能是一个子词、一个字符,甚至是一个符号,这是否会窄化概念?
这种担忧源于对“词”的狭义理解。在现代计算语言学中,“词”的概念已经得到了极大的扩展。“分词”中的“词”,不应再局限于传统语言学中严格定义的“词语”,而应理解为构成语言序列的基本单元。正如“编码”中的“码”可以指代比特、字节、符号等多种形式一样,“分词”中的“词”也是一个广义的、承载信息的基本片段的代称。它可以是中文的词语、英文的子词、一个标点,甚至是特定的符号组合。这种广义的理解,与现代AI模型处理文本的“子词”或“多粒度”分词理念是完全吻合的。
结语
术语的翻译不仅是语言的转换,更是概念的落地与扎根。一个优秀的译名,应当在准确传达原意的基础上,符合目标语言的思维习惯,并易于理解和传播。“分词”这一译名,源于已被广泛接受的“分词器”,符合中文自然的构词逻辑,能清晰体现“token”作为文本处理基本单元的核心内涵,并能构建起更加自洽的术语体系。
在人工智能日益普及的今天,为其核心概念寻找一个更贴切、更“接地气”的中文表达,对于技术的普及和发展具有重要意义。“分词”或许就是这样一个值得考虑的选项,它让我们在谈论前沿技术时,依然能使用我们语言中最朴素、最直接的智慧。
转载本文请联系原作者获取授权,同时请注明本文来自曾纪晴科学网博客。
链接地址:https://wap.sciencenet.cn/blog-52021-1527216.html?mobile=1
收藏