滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

Token：从逻辑符号到AI基石，它如何重塑语言与权力的新秩序？

时间：2026-03-30 20:29:56 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当人们询问AI关于“马嘉祺”的信息时，得到的回答可能是“马俊杰”“马杰伦”或其他名字，唯独不是正确的答案。这种现象并非AI在故意编造，而是与其处理语言的方式密切相关。人类在交流时，往往先理解语义，再提取对应的词汇发音；而AI的运作方式则相反，它先有一套词汇表，再通过统计关联构建描述和概念。

以人类认识“草莓”为例，人们通过感官体验形成对草莓的综合认知，最终知道它叫“草莓”。而AI则通过海量文本数据，统计“strawberry”常与哪些词汇共现，从而拼凑出关于草莓的描述。它没有真实的感官体验，只是通过数据关联模拟出草莓的形象。在AI的词汇表中，“草莓”可能只是一串编号，即Token。

Token在AI领域有着重要作用，它是语言在模型中的替代物。如今，Token的影响力已超出科技圈，甚至有了中文译名“词元”，不过这一译名存在争议。Token的概念最早可追溯到1906年，美国哲学家查尔斯·桑德斯·皮尔士提出Type-Token distinction，用于区分抽象的类型和具体的实例。例如，英语中只有一个抽象的“the”，但具体文本中会出现多个“the”，抽象的“the”是Type，具体的则是Token。

此后，Type-Token这对概念被应用到多个领域。1930年代，语言学家齐普夫用其统计词汇出现频率，发现了齐普夫定律；1944年，心理学家提出类型-标记比，用于衡量文本词汇丰富度。计算机出现后，Token在编译原理中有了新应用，编译器将代码切分成一个个Token，以便计算机识别处理。

然而，处理自然语言时，按空格切分的方法存在诸多问题。英语虽相对容易，但会面临词表爆炸、未登录词等困扰；而中文、日语等没有空格的语言，分词更是难题。2016年，神经机器翻译兴起，为解决生词问题，爱丁堡大学的Rico Sennrich等人将字节对编码（BPE）算法引入自然语言处理。BPE算法通过统计相邻字节出现频率，将高频组合合并成新符号，从而控制词表大小，解决生词问题。

2018年，OpenAI对BPE算法进行改进，推出Byte-level BPE（BBPE）。BBPE从基础字节出发，无论何种语言，都统一处理为0到255之间的数字，再通过合并生成词表。这使得GPT系列模型能够处理多种语言，因为其起点足够低，不依赖任何语言的先验知识。

但BBPE也存在问题，不同语言在处理效率和成本上存在差异。英文单词常能以完整Token出现，而中文汉字可能需要多个字节，一些生僻字甚至会被拆分成多个碎片，导致中文Token消耗更多。大模型按Token计费，中文用户需支付更多费用，且在相同上下文窗口下，能输入的内容更少。小语种的情况更为严峻，由于训练数据稀缺，字节组合难以合并，Token消耗可能是英文的数倍。

这种语言不平等现象并非首次出现。电报时代，莫尔斯码基于英文字母频率设计，中文电报需将汉字转换为数字再编码，导致信号量是英文的七八倍，费用也更高；打字机发明初期，也是为拉丁字母设计，中文打字机操作复杂，速度缓慢。近现代以来，每次新的信息编码系统出现，都会引发语言不平等，且英文往往占据优势。

虽然技术在不断改进，如从GPT-3到GPT-5，中文Token效率有所提升，但词表容量有限，小语种的问题仍未得到有效解决。语料配比决策隐藏在技术文档中，却决定了数十亿人使用AI的成本和体验。BPE用频率取代Type，虽带来了便利，但也导致了语言不平等，高频语言被完整保留，低频语言被碎成碎片。

这种不平等不仅存在于不同语言之间，也存在于同一种语言内部。以“马嘉祺”为例，由于“祺”字出现频率低，BPE算法未为其分配完整Token，而是拆分成碎片。AI生成名字时，难以正确组合这些碎片，而“马俊杰”等名字因各字为完整Token且组合常见，更易被AI生成。2026年1月的研究发现，tokenizer会影响大模型的推理能力，模型会选择阻力最小的路径生成答案，强制移除易混淆的Token可提升模型表现，这表明问题在于tokenizer的架构层面，模型变大也无法解决。

Token从逻辑图中的一个概念，逐步发展成为AI领域的核心要素，其发展历程充满了偶然性。皮尔士、Philip Gage、Rico Sennrich以及OpenAI等，每一步的选择都是为了解决当时的问题，却在不经意间凝固成了新的秩序。如今，人类正将意义和规则的定义权交给统计数据，而Token已成为这一过程中不可或缺的一部分。

04-24

寒武纪Day 0适配DeepSeek-V4：高性能优化助力AI超长上下文交互新体验

04-24

AI浪潮下iPhone地位升级：从手机到“数字护照” 苹果生态闭环优势凸显

04-24

Cohere与Aleph Alpha携手：200亿美元助力跨大西洋“主权AI”新征程

04-24

捷达北京车展展新姿：底气支撑、诚意铺路、行动开启电动新程

04-24

奥迪 E7X全球首秀亮相车展 5月8日预售开启引领豪华电动SUV新风潮

04-24

捷达焕新启航：以德系品质为基，智能电动新征程向新而生

04-24

2026款MG4北京车展登场 6.58万起开启纯电两厢3.0时代新篇章

04-24

2026北京车展东风汽车闪耀登场 “东方风起2030”计划引领未来出行新篇

04-24

2026北京车展启幕 iCAR携V23白武士版与ROBOX概念车惊艳登场

04-24

英伟达超万名员工体验GPT-5.5版Codex，黄仁勋呼吁全员拥抱AI新工具

04-24

中国航天新动向：长五B助力空间站，嫦娥七号探月，载人登月可期

今年我们将会把嫦娥七号送入月球，明年还会有空间站任务，可能是科学史上价值最高的空间站的工程，将由长征五号B发射升空。总台央视记者崔霞：长征五号和长征五号B是两兄弟，它会有一些新的变化、新的改进吗？总台央…

04-24

中国航天“剧透”来袭！长五B送空间站、北斗升级、新飞船将启

总台央视记者崔霞：长征五号和长征五号B是两兄弟，它会有一些新的变化、新的改进吗？我们将会在原来长征五号B的基础上再增加一级，来实现我们空间站工程的建设任务。总台央视记者崔霞：中国空间站现在已经进入到常…

04-24

中国航天新动向：长五B升级、北斗精度跃升、新一代飞船即将启航

今年我们将会把嫦娥七号送入月球，明年还会有空间站任务，可能是科学史上价值最高的空间站的工程，将由长征五号B发射升空。总台央视记者崔霞：长征五号和长征五号B是两兄弟，它会有一些新的变化、新的改进吗？总台央…

04-24

中国航天70周年新展望：嫦娥七号将探月，北斗及载人飞船迎新突破

中国航天科技集团一院火箭总体专家冯韶伟透露，今年我们将会把嫦娥七号送入月球，明年还会有空间站任务，可能是科学史上价值最高的空间站的工程，将由长征五号B 发射升空。载人月球探测工程这两年也在稳步推进，在不久…

04-24

点击查看更多 +

全站最新

商务部：将7家欧盟实体列入出口管制管控名单

守拙者"降维"：石头科技的第一性原理生意经

赛力斯张正萍与白敬亭同台问界M6北京车展开启首批交付

赛力斯何利扬：坚持AI定义汽车，魔方技术平台向整车L4级具身智能演进

锂矿概念股拉升，稀有金属ETF、新能源车ETF、电池ETF涨超2%

港股收评：科指涨0.75%！半导体板块大涨，汽车股走低

热门内容

本栏最新

捷达北京车展展新姿：底气支撑、诚意铺路、行动开启电动新程

奥迪 E7X全球首秀亮相车展 5月8日预售开启引领豪华电动SUV新风潮

捷达焕新启航：以德系品质为基，智能电动新征程向新而生

2026款MG4北京车展登场 6.58万起开启纯电两厢3.0时代新篇章

2026北京车展东风汽车闪耀登场 “东方风起2030”计划引领未来出行新篇

2026北京车展启幕 iCAR携V23白武士版与ROBOX概念车惊艳登场

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.