近期,人工智能领域的大模型应用引发了广泛讨论,尤其是关于不同语言在使用成本上的差异问题。有开发者发现,使用某些国际知名大模型时,中文处理成本显著高于英文,这一现象被形象地称为“中文税”。与此同时,另一个有趣的现象也浮出水面:使用古文与AI交互,似乎比现代汉语更节省成本。
一位独立开发者在社交平台分享了自己的经历:他订阅了某大模型的最高级别服务,却在不到两小时内用完了限额。这一情况并非个例,不少用户反映,新版本发布后,相同任务的token消耗量激增,导致成本翻倍。进一步调查发现,问题根源在于新版本引入了新的分词器,同时调整了代码生成的默认参数,使得英文处理的token消耗大幅增加,而中文处理则基本保持不变。
关于中文处理成本较高的说法,有观点认为这是模型对中文进行了特殊优化所致。然而,查阅相关技术文档后发现,厂商并未提及任何针对中文的调整。那么,为何中文会消耗更多token?又为何古文反而更节省成本?为解答这些疑问,有研究者进行了系统性测试。
测试选取了涵盖商业新闻、技术文档、日常对话等类型的平行文本,分别输入五种不同的分词器进行处理。结果显示,在国际大模型中,中文的token消耗普遍高于英文,尤其在商业新闻领域,中文版本比英文版本多消耗高达64%的token。而在国产大模型中,情况则恰恰相反,中文的token消耗反而低于英文,最低可节省三分之一的成本。
进一步分析发现,分词器的设计是导致这一差异的关键因素。国际大模型的分词器主要以英文为基准构建,中文作为后来添加的语言,被拆分为单个字符或字节进行处理。而国产大模型则从设计之初就将中文作为默认语言,将常用汉字和词组整体纳入分词表,从而提高了处理效率。
至于古文为何更节省成本,原因在于其用字极为精炼。例如,一句十二字的古文,翻译成现代汉语后字数翻倍,token消耗自然也随之增加。古文中常用字多为高频字符,在分词表中通常有独立位置,不会被进一步拆分,因此编码效率更高。然而,研究者也指出,虽然古文在编码层面更高效,但模型的理解负担却更重,因为单个字符可能对应多种含义,需要结合上下文进行推断。
这一现象引发了对分词器设计的深入思考。有研究表明,将汉字拆分为单个字节进行处理时,模型可能通过字节序列的规律性,间接学习到汉字的结构信息,例如部首与语义的关联。而当汉字被整体编码时,这种结构信息则被封装在不透明的编号中,模型无法直接利用。不过,这一结论仅适用于字形相关的细分语义任务,并不代表模型整体性能的下降。
事实上,当前大模型行业的主流观点仍认为,针对目标语言优化的分词器能显著提升模型性能。整体编码不仅能降低处理成本,还能提高上下文窗口的信息量,减少推理延迟,增强长文本处理的稳定性。然而,此次研究发现也提醒人们,技术优化可能带来意想不到的副作用,某些被忽视的细节可能对模型性能产生微妙影响。
这一话题也让人联想到中文技术发展的历史。早在上世纪四十年代,林语堂曾发明过一台中文打字机,试图解决中文与西方技术基础设施的兼容问题。该打字机通过字形结构拆分和组合检索的方式,实现了中文的高效输入。尽管商业上未能成功,但其设计理念却影响了后世所有中文输入法的发展。
从中文打字机到现代大模型分词器,中文始终面临着如何接入以罗马字母为基础的技术体系的挑战。在这个过程中,许多非人为规划的巧合发挥了重要作用。例如,Unicode联盟按部首排列的编码规则,与分词算法的无意拆解相结合,竟在神经网络中重现了人类识字的过程。而当工程师们为消除“中文税”而优化分词器时,这条意外诞生的语义通道也随之关闭。








