滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

从“中文税”到古文省Token：AI分词器背后中文适配的曲折之路

时间：2026-05-03 16:12:18 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

近期，人工智能领域因模型更新引发了一场关于语言处理成本的讨论。某知名模型升级后，部分用户发现对话成本骤增，有人甚至在两小时内耗尽订阅额度。这一现象背后，是模型引入的新分词机制与代码处理强度调整的双重影响。据测算，相同任务下，新版本消耗的计算单元数量较以往增加了两到三倍。

在用户反馈中，两个关于中文处理的观点引发热议：一是中文在新分词机制下未受明显影响，二是文言文因结构精炼反而更节省计算资源。为验证这些说法，技术人员使用五组不同模型对22类文本进行了对比测试，涵盖新闻、技术文档、日常对话及古典文献等场景。

测试结果显示，不同模型对中英文的处理方式存在显著差异。以某国际主流模型为例，其旧版本处理中文时消耗的计算单元普遍比英文高11%至64%，尤其在商业新闻领域差距最为明显。而国产模型则表现出相反特征，部分案例中中文消耗的计算单元比英文低35%。新版本升级后，英文计算单元消耗激增1.24至1.63倍，中文却基本保持稳定。

这种差异源于模型分词机制的设计逻辑。英文处理通常以完整单词为单位，而中文因缺乏天然分隔符，不同模型采取了截然不同的策略。国际模型早期版本将每个汉字拆分为多个基础单元，类似将"人工智能"拆解为"人"、"工"、"智"、"能"四个部分。国产模型则通过优化词表，将常用词汇整体识别，使得相同内容所需的计算单元大幅减少。

古典文献的测试结果印证了用户观察。在所有测试模型中，文言文样本消耗的计算单元均少于现代中文，甚至低于英文版本。这主要归功于古文用字高度凝练，且常用字在各类分词机制中都能保持完整识别。例如"学而不思则罔"仅需6个计算单元，而现代汉语解释版则需12个单元。

但节省计算单元并不等同于处理效率提升。研究人员指出，古文虽然编码简洁，却增加了模型的理解难度。单个汉字可能对应多种含义，模型需要结合上下文进行语义推断，这反而消耗更多计算资源。类似的情况也出现在现代中文处理中，过度合并字符可能导致语义信息丢失，影响最终输出质量。

这种技术困境在语言发展史上早有先例。上世纪四十年代，中文输入法面临类似挑战。当时设计师尝试通过字形分解实现中文输入，将汉字拆解为偏旁部首组合，用户需通过多级菜单选择部件拼装文字。这种设计虽未普及，却为后续输入法开发奠定了基础，现代五笔、仓颉等输入法仍保留着字形分解的逻辑。

最新语言学研究揭示了更复杂的图景。当汉字被拆分为基础单元时，模型反而能通过统计规律捕捉字形结构信息。例如共享"火"字旁的汉字，在基础单元层面会呈现相似模式，这帮助模型间接理解了字形与语义的关联。而整体识别汉字虽然计算效率更高，却关闭了这条意外形成的语义通道。

当前主流模型仍倾向于采用整体识别方案，这在多数应用场景中能显著提升处理速度并降低成本。但研究人员提醒，技术优化可能带来不可预见的副作用。就像中文输入法从字形分解转向拼音输入后，提笔忘字现象日益普遍，技术选择始终在效率与功能完整性之间寻求平衡。

这场由模型升级引发的讨论，暴露出人工智能语言处理系统的深层矛盾。当技术架构以特定语言为基准设计时，其他语言的适配往往需要付出额外代价。中文作为非字母文字的代表，其处理方式的选择不仅影响计算成本，更关系到文化信息在数字世界的保存方式。如何在技术优化与语言特性保护之间找到平衡点，将成为人工智能时代的重要课题。

更多>同类资讯

Engram缺席DeepSeek V4：遗憾背后是理念延续与多领域探索的新可能

05-03

蔚来CEO李斌：今年车卖不好公司就没了

05-03

百亿公司高管们为何集体转身，去Anthropic当工程师

05-03

蔚来CEO李斌：今年车卖不好公司就没了

05-03

伯克希尔年会聚焦AI：务实布局不盲目，高管称其难替人类决策

05-03

格雷格·阿贝尔首秀主持，巴菲特台下就座，“后巴菲特时代”股东大会亮点速览

05-03

自动化焊接机器人：2026年技术升级如何重塑制造业竞争力格局

05-03

五一文旅新体验：AI赋能沉浸游科技助力文化传承新路径

05-03

荣耀与ARRI阿莱合作背后：同期有手机厂商竞争，延期或为带来更优体验

05-03

GAIR Live圆桌：端云协同与记忆工程如何破解AI Agent的Token焦虑？

05-03

苹果iPhone 18 Pro系列或采用激进定价基本款价格有望维持稳定

05-03

AI浪潮下人类工作何去何从？掌握这项能力方能稳立时代潮头

05-03

荣耀与ARRI阿莱牵手背后：同期有手机厂商竞争，荣耀凭实力胜出

05-03

苹果iPhone 18 Pro系列或采取激进定价基本款价格有望维持稳定

05-03

鄂尔多斯新能源研究院：以“黑科技”赋能绘就绿色转型新画卷

05-03

点击查看更多 +

全站最新

冯柳逆势加仓这家公司！邓晓峰最新持仓来了

图解4月、1-4月ETF资金流榜单

时隔四年重磅回归！小米MIX5或2026年亮相，真全面屏+磁吸镜头+自研芯

小红书剑指电商新赛道，“好物市场”能否打造唯品会式商业新版图？

Meta收购机器人公司ARI，发力具身智能欲做人形机器人底层生态赢家

科大讯飞AI学习机T30 Ultra：个性化学习+护眼设计，开启高效学习新体验

热门内容

本栏最新

2026北京车展吉利大放异彩：新概念车、新架构、新技术引领智电新潮流

东风日产N7黑骑士北京车展登场！轿跑设计+635km续航，主打年轻运动市场

吉利中国星i-HEV智擎混动登场：中国品牌重塑全球混动技术新秩序

2026北京车展：独立供应商崛起，智能汽车技术变革与全球化新征程

奥迪E7X 5月8日开启预售！大空间强驾控，40万级电动SUV新选择

奥迪E7X 5月8日开启预售！大五座纯电SUV，驾控智舱双在线

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.