ITBear旗下自媒体矩阵:

Token:从逻辑符号到AI基石,它如何重塑语言与权力的新秩序?

   时间:2026-03-30 20:29:56 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当人们询问AI关于“马嘉祺”的信息时,得到的回答可能是“马俊杰”“马杰伦”或其他名字,唯独不是正确的答案。这种现象并非AI在故意编造,而是与其处理语言的方式密切相关。人类在交流时,往往先理解语义,再提取对应的词汇发音;而AI的运作方式则相反,它先有一套词汇表,再通过统计关联构建描述和概念。

以人类认识“草莓”为例,人们通过感官体验形成对草莓的综合认知,最终知道它叫“草莓”。而AI则通过海量文本数据,统计“strawberry”常与哪些词汇共现,从而拼凑出关于草莓的描述。它没有真实的感官体验,只是通过数据关联模拟出草莓的形象。在AI的词汇表中,“草莓”可能只是一串编号,即Token。

Token在AI领域有着重要作用,它是语言在模型中的替代物。如今,Token的影响力已超出科技圈,甚至有了中文译名“词元”,不过这一译名存在争议。Token的概念最早可追溯到1906年,美国哲学家查尔斯·桑德斯·皮尔士提出Type-Token distinction,用于区分抽象的类型和具体的实例。例如,英语中只有一个抽象的“the”,但具体文本中会出现多个“the”,抽象的“the”是Type,具体的则是Token。

此后,Type-Token这对概念被应用到多个领域。1930年代,语言学家齐普夫用其统计词汇出现频率,发现了齐普夫定律;1944年,心理学家提出类型-标记比,用于衡量文本词汇丰富度。计算机出现后,Token在编译原理中有了新应用,编译器将代码切分成一个个Token,以便计算机识别处理。

然而,处理自然语言时,按空格切分的方法存在诸多问题。英语虽相对容易,但会面临词表爆炸、未登录词等困扰;而中文、日语等没有空格的语言,分词更是难题。2016年,神经机器翻译兴起,为解决生词问题,爱丁堡大学的Rico Sennrich等人将字节对编码(BPE)算法引入自然语言处理。BPE算法通过统计相邻字节出现频率,将高频组合合并成新符号,从而控制词表大小,解决生词问题。

2018年,OpenAI对BPE算法进行改进,推出Byte-level BPE(BBPE)。BBPE从基础字节出发,无论何种语言,都统一处理为0到255之间的数字,再通过合并生成词表。这使得GPT系列模型能够处理多种语言,因为其起点足够低,不依赖任何语言的先验知识。

但BBPE也存在问题,不同语言在处理效率和成本上存在差异。英文单词常能以完整Token出现,而中文汉字可能需要多个字节,一些生僻字甚至会被拆分成多个碎片,导致中文Token消耗更多。大模型按Token计费,中文用户需支付更多费用,且在相同上下文窗口下,能输入的内容更少。小语种的情况更为严峻,由于训练数据稀缺,字节组合难以合并,Token消耗可能是英文的数倍。

这种语言不平等现象并非首次出现。电报时代,莫尔斯码基于英文字母频率设计,中文电报需将汉字转换为数字再编码,导致信号量是英文的七八倍,费用也更高;打字机发明初期,也是为拉丁字母设计,中文打字机操作复杂,速度缓慢。近现代以来,每次新的信息编码系统出现,都会引发语言不平等,且英文往往占据优势。

虽然技术在不断改进,如从GPT-3到GPT-5,中文Token效率有所提升,但词表容量有限,小语种的问题仍未得到有效解决。语料配比决策隐藏在技术文档中,却决定了数十亿人使用AI的成本和体验。BPE用频率取代Type,虽带来了便利,但也导致了语言不平等,高频语言被完整保留,低频语言被碎成碎片。

这种不平等不仅存在于不同语言之间,也存在于同一种语言内部。以“马嘉祺”为例,由于“祺”字出现频率低,BPE算法未为其分配完整Token,而是拆分成碎片。AI生成名字时,难以正确组合这些碎片,而“马俊杰”等名字因各字为完整Token且组合常见,更易被AI生成。2026年1月的研究发现,tokenizer会影响大模型的推理能力,模型会选择阻力最小的路径生成答案,强制移除易混淆的Token可提升模型表现,这表明问题在于tokenizer的架构层面,模型变大也无法解决。

Token从逻辑图中的一个概念,逐步发展成为AI领域的核心要素,其发展历程充满了偶然性。皮尔士、Philip Gage、Rico Sennrich以及OpenAI等,每一步的选择都是为了解决当时的问题,却在不经意间凝固成了新的秩序。如今,人类正将意义和规则的定义权交给统计数据,而Token已成为这一过程中不可或缺的一部分。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version