滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

AI大模型里的“中文适配难题”：从分词差异到历史巧合的深层探索

时间：2026-05-03 13:35:30 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

近期，人工智能领域的大模型应用引发了广泛讨论，尤其是关于不同语言在使用成本上的差异问题。有开发者发现，使用某些国际知名大模型时，中文处理成本显著高于英文，这一现象被形象地称为“中文税”。与此同时，另一个有趣的现象也浮出水面：使用古文与AI交互，似乎比现代汉语更节省成本。

一位独立开发者在社交平台分享了自己的经历：他订阅了某大模型的最高级别服务，却在不到两小时内用完了限额。这一情况并非个例，不少用户反映，新版本发布后，相同任务的token消耗量激增，导致成本翻倍。进一步调查发现，问题根源在于新版本引入了新的分词器，同时调整了代码生成的默认参数，使得英文处理的token消耗大幅增加，而中文处理则基本保持不变。

关于中文处理成本较高的说法，有观点认为这是模型对中文进行了特殊优化所致。然而，查阅相关技术文档后发现，厂商并未提及任何针对中文的调整。那么，为何中文会消耗更多token？又为何古文反而更节省成本？为解答这些疑问，有研究者进行了系统性测试。

测试选取了涵盖商业新闻、技术文档、日常对话等类型的平行文本，分别输入五种不同的分词器进行处理。结果显示，在国际大模型中，中文的token消耗普遍高于英文，尤其在商业新闻领域，中文版本比英文版本多消耗高达64%的token。而在国产大模型中，情况则恰恰相反，中文的token消耗反而低于英文，最低可节省三分之一的成本。

进一步分析发现，分词器的设计是导致这一差异的关键因素。国际大模型的分词器主要以英文为基准构建，中文作为后来添加的语言，被拆分为单个字符或字节进行处理。而国产大模型则从设计之初就将中文作为默认语言，将常用汉字和词组整体纳入分词表，从而提高了处理效率。

至于古文为何更节省成本，原因在于其用字极为精炼。例如，一句十二字的古文，翻译成现代汉语后字数翻倍，token消耗自然也随之增加。古文中常用字多为高频字符，在分词表中通常有独立位置，不会被进一步拆分，因此编码效率更高。然而，研究者也指出，虽然古文在编码层面更高效，但模型的理解负担却更重，因为单个字符可能对应多种含义，需要结合上下文进行推断。

这一现象引发了对分词器设计的深入思考。有研究表明，将汉字拆分为单个字节进行处理时，模型可能通过字节序列的规律性，间接学习到汉字的结构信息，例如部首与语义的关联。而当汉字被整体编码时，这种结构信息则被封装在不透明的编号中，模型无法直接利用。不过，这一结论仅适用于字形相关的细分语义任务，并不代表模型整体性能的下降。

事实上，当前大模型行业的主流观点仍认为，针对目标语言优化的分词器能显著提升模型性能。整体编码不仅能降低处理成本，还能提高上下文窗口的信息量，减少推理延迟，增强长文本处理的稳定性。然而，此次研究发现也提醒人们，技术优化可能带来意想不到的副作用，某些被忽视的细节可能对模型性能产生微妙影响。

这一话题也让人联想到中文技术发展的历史。早在上世纪四十年代，林语堂曾发明过一台中文打字机，试图解决中文与西方技术基础设施的兼容问题。该打字机通过字形结构拆分和组合检索的方式，实现了中文的高效输入。尽管商业上未能成功，但其设计理念却影响了后世所有中文输入法的发展。

从中文打字机到现代大模型分词器，中文始终面临着如何接入以罗马字母为基础的技术体系的挑战。在这个过程中，许多非人为规划的巧合发挥了重要作用。例如，Unicode联盟按部首排列的编码规则，与分词算法的无意拆解相结合，竟在神经网络中重现了人类识字的过程。而当工程师们为消除“中文税”而优化分词器时，这条意外诞生的语义通道也随之关闭。

更多>同类资讯

豆包AI手机二代或上半年亮相，中兴与字节跳动携手推进研发新进程

05-03

1580亿美元天价薪酬背后：马斯克需跨越“地缘级”目标方能兑现

05-03

WWDC 2026将至：iOS 27或推Siri新应用、5G卫星连接等创新功能

05-03

时隔四年重磅回归！小米MIX5或2026年亮相，真全面屏+磁吸镜头+自研芯

05-03

W17周新机市场激战：华为领跑，OPPO小米紧随，苹果排名创新低

05-03

小红书剑指电商新赛道，“好物市场”能否打造唯品会式商业新版图？

05-03

Meta收购机器人公司ARI，发力具身智能欲做人形机器人底层生态赢家

05-03

学生平板学习机怎么选？科大讯飞P30Turbo等四款热门机型全方位对比来啦

05-03

科大讯飞AI学习机T30 Ultra：个性化学习+护眼设计，开启高效学习新体验

05-03

青少年电子书阅读器怎么选？科大讯飞S2等主流品牌对比，哪款更贴合学生需求？

05-03

小米5月服务周来袭！67款机型电池优惠换新最低47.2元起

05-03

小米13系列电池升级服务登场：149元扩容续航，老旗舰再焕生机

05-03

追觅科技跨界造手机：避开中低端直指超高端，欲与苹果三星一争高下

05-03

小米SU7锁单量破7万大关，雷军直面争议，现阶段全力攻坚交付难题

05-03

法庭对峙后奥尔特曼向马斯克抛橄榄枝邀其参加GPT - 5.5庆功宴

05-03

点击查看更多 +

全站最新

时隔四年重磅回归！小米MIX5或2026年亮相，真全面屏+磁吸镜头+自研芯

小红书剑指电商新赛道，“好物市场”能否打造唯品会式商业新版图？

Meta收购机器人公司ARI，发力具身智能欲做人形机器人底层生态赢家

科大讯飞AI学习机T30 Ultra：个性化学习+护眼设计，开启高效学习新体验

五一新能源车充电服务再升级，现存充电桩相关企业近94万家

全国“五一”文旅消费周开启，现存旅游相关企业超266.2万家

热门内容

本栏最新

小红书剑指电商新赛道，“好物市场”能否打造唯品会式商业新版图？

Meta收购机器人公司ARI，发力具身智能欲做人形机器人底层生态赢家

科大讯飞AI学习机T30 Ultra：个性化学习+护眼设计，开启高效学习新体验

有道周枫清华论道：AI教育浪潮下，教育变革与未来趋势新洞察

运—20跨越千里守护高原战士：双向奔赴的家国情怀最暖人心

五一邂逅枣庄：15处宝藏打卡地，解锁四季有景有乐的独特玩法！

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.