||
Token(词元)术语详解:来源、内涵、定义
Token译为词元,是语言学、计算语言学、自然语言处理(NLP)领域的核心基础术语,其内涵从符号学、理论语言学的原生概念,逐步延伸至计算语言学、大模型技术场景,最终形成了国内学界统一的“词元”译法。而Type与Token是相伴而生的一对经典二分术语,是现代语言学、语料库语言学、NLP技术的底层分析工具。
一、Token的术语源头与中文译法演变
1. 英文词源与跨学科起源
Token的英文原生词源为古英语tācen,本义是符号、标记、信物、表征,核心内涵是“承载特定意义的具象化符号实例”。
该术语正式成为学术概念,最早源于美国逻辑学家、符号学创始人查尔斯·桑德斯·皮尔士(Charles Sanders Peirce) 在1906年的符号学理论体系。皮尔士将符号分为两大范畴:Type(类型) 是抽象的、规约性的符号原型;Token(实例) 是Type在具体场景中的物理实现与个体实例,这是Type-Token术语对的正式起源。
随后,这对术语被结构主义语言学吸纳,与索绪尔提出的语言(Langue,抽象的社会规约性语言系统)/言语(Parole,具体的个人语言使用行为) 二分体系高度契合,成为理论语言学分析语言符号的核心工具。
2. 计算语言学术语type-token
20世纪中期,随着机器翻译、语料库语言学兴起,该术语进入计算语言学领域,成为文本处理的基础概念,字型、字例,词型、词例,句型、句例等各个层级的语言单位在进行计量时,均使用了type-token这对术语。
以中文句子为例:“我吃苹果,我吃梨。”
分词后的Token序列:我、吃、苹果,我、吃、梨。
Token总数(形符数):6个;
Type总数(类符数):4个(去重后为:我、吃、苹果、梨);
3. 大模型时代的token
2018年预训练语言模型兴起后,Token进一步成为大语言模型的核心底层单元,进入大众视野。
在大语言模型中,tokenization(词元化)是将一个文本分割成多个 token 的过程。通常,token 是指文本中具有独立意义的最小单位,可以是字符、单词、符号、数字或子词。
词元化过程:词元化是文本预处理的重要步骤,在这一步中,文本被分割成一个个的 token,通常包括:
字符:如 a,b,c, 你,我
单词:如“apple”,“dog”,“run”
标点符号:如逗号、句号、问号等
数字:如“123”,“45.67”
子词(subwords):在一些先进的 NLP 模型(如 BERT、GPT)中,单词可能会被进一步拆分为更小的单元(例如,字节对编码(BPE)技术拆分“unhappiness”为“un”和“happiness”两个子词),实际上接近于“语素”,但是工业界对“语素”不熟悉,且有时甚至比英语的语素还小,故未能采用。
二、 中文译法的演变:从多译并存到“词元”的规范统一
在中文语境中,Token的译法经历了长期的演变,不同学科场景曾出现多个译法,最终在NLP/大模型时代形成了“词元”的学界共识:
译法 | 适用场景 | 局限性 |
形符 | 传统语料库语言学(与“类符Type”对应) | 仅能体现“文本形式实例”的属性,无法覆盖计算语言学中“最小处理单元”的核心内涵 |
例符/标记 | 理论语言学、符号学 | 过于泛化,无法锚定语言处理场景的专属含义,易与通用的“标记”概念混淆 |
令牌/记号 | 计算机编译原理、密码学 | 完全脱离语言学属性,与NLP场景的内涵无关,易造成认知偏差 |
分词/词片 | 大模型大众科普语境 | 属于概念误用,分词是生成Token的过程,而非Token本身;子词只是Token的一种形态,无法覆盖其全部内涵 |
词元 | 计算语言学、NLP、大模型技术(当前规范译法) | 精准锚定了“语言处理的最小基本单元”的核心内涵,符合中文科技术语的构词习惯,是当前全国科学技术名词审定委员会、国内学界统一的规范译法 |
三、 译为“词元”的核心理由与合理性
“词元”能成为最终的规范译法,核心在于其完美适配了Token在语言学与计算领域的双重内涵,解决了其他译法的局限性:
(1)贴合核心属性:锚定“最小基本单元”的本质
“元”在中文科技术语中,本义是“最基础、不可再分的基本单元”(如音元、语素元、数据元)。在NLP场景中,Token是文本处理、模型计算的最小不可再分单元,无论其形态是完整的词、子词、单个汉字/字符,“元”字都能精准概括其“基础单元”的核心属性,完美适配从“词级分词”到“子词分词”的技术演变。
(2)区分场景歧义:专属锚定语言学/NLP场景
用“词元”替代“标记、令牌、例符”等泛化译法,专门划定了该术语在语言处理场景的专属含义,避免了与编译原理、哲学、日常语境中的Token概念混淆,形成了清晰的术语边界。
(3)兼顾理论与应用:覆盖从语言学到工程的全场景
既保留了“词”的语言学本源,体现其作为语言符号的本质;又通过“元”字,适配了工程场景中“最小计算单元”的技术内涵,实现了理论语言学与计算语言学的术语统一。
(4)符合术语规范:国内学界与官方机构的统一共识
全国科学技术名词审定委员会在《计算机科学技术名词(第三版)》《语言学名词》中,已将NLP/计算语言学场景下的Token规范译为“词元”;ACL、EMNLP等顶会的中文译稿、国内高校计算语言学专业教材,均已统一采用“词元”译法。
(5)缺陷与不足
type和token在计算语言学中,(类)型和(实)例已经是非常成熟的翻译用法。单独将token翻译为词元,其实有混淆类型和实例的危险性!
主要原因在于,目前大语言模型的tokenization的工作,做到了sub-word(子词)的层级,用“字”或“词”都不能直接对应,实质上接近“语素”。但是“语素”和“子词”,一个过于语言学,一个不够学术化,而用接近于“词”的“词元”来表示,大家感觉最为贴合。其实在不同的模型系统中,这些token对应的type才更重要,到底使用哪种层级的语言单位。
所以,英语的token如果不翻译没有问题,英语中本来就是为了弱化单位的类型,而只计量实例。到汉语使用“词元”这个术语,在今天更接近“子词”这个type(类型)的语言单位,而在token(实例)上反而缺失了对应术语,容易引起理解上的混乱。
因此,如果给它一个更好的翻译,“实例”没有“词”的意味,也许“词元实例” 是更贴切的,就是冗长了一些。
四、常见认知误区澄清
误区1:Token就是“分词”,大模型里的Token就是中文的“字”
澄清:Tokenization是将文本拆分为Token的过程,而非Token本身;大模型中的Token形态多样,中文场景下可能是单个字,也可能是双字词、多字词、子词片段,并非固定为“字”。Token的核心是“模型词表中的最小计算单元”,而非单纯的语言学分词结果。
误区2:Type就是“词”,Token就是“词的出现次数”
澄清:Type的范畴远大于“词”,它可以是词、语素、字符、标点符号,甚至是模型学习到的固定短语片段;Token也不是单纯的“次数”,而是每一次具体出现的实例本身,次数只是Token的统计属性。
误区3:大模型时代,Type-Token的传统语言学定义已经失效
澄清:大模型技术只是延伸了Token的工程内涵,并未否定其原生的语言学定义。模型词表中的每一个条目,本质就是一个Type;文本输入、生成过程中每一个出现的单元,就是对应Type的Token实例。Type-Token的二分逻辑,依然是大模型语言处理的底层语言学根基。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-2-27 04:19
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社