当同一道逻辑题用英文表述时,人工智能模型能迅速给出准确答案;但换成中文后,部分模型的表现却大幅下滑,甚至得出完全相反的结论。这一现象引发了科研团队的关注。四川大学数学学院与华为技术有限公司2012实验室理论实验室联合开展的研究,通过构建一套名为“CHLOGIC”的测试工具,系统量化了人工智能在中英文逻辑推理中的能力差异。
现有逻辑推理测试集多以英文为主,中文版本往往仅作简单翻译,未深入检验同一逻辑结构在不同中文表达下的稳定性。CHLOGIC的研发填补了这一空白。其设计理念类似于为同一块积木更换不同外壳——逻辑结构是核心积木,中英文表达则是外壳。若人工智能真正理解逻辑本质,其判断应不受外壳变化影响。
该测试工具包含三个模块,覆盖不同难度和语言现象。第一部分“通用对齐集”从九大逻辑模板中提取60条基础命题,涵盖假言推断、关系逻辑等,每条命题生成50个具体场景,形成3000道题。每道题提供英文版本及五种中文版本,包括标准中文、自然书面中文、口语化中文、反问式中文和扰动中文。第二部分“困难对齐集”聚焦高难度逻辑,如量词交换、关系属性等,生成2000道题,同样配备中英文版本。第三部分“纯中文集”针对中文特有现象,如条件标记词区分、部分否定与全称否定混淆等,设计1500道题,仅提供中文版本。
题库构建采用人机协作模式。研究人员首先确定逻辑模板、前提条件和答案,随后由人工智能生成中英文表述,另一人工智能模型负责初步质检,确保表述忠实于原始逻辑。最终,所有题目经人工审核,确保中文表达自然且语义准确。这一流程确保逻辑结构由人类锁定,人工智能仅参与语言创作与质检,避免“自测自评”问题。
研究团队选取五款主流人工智能模型进行测试,包括Qwen3系列、Ministral系列和GLM-5.1。结果显示,模型在英文题上的表现普遍优于中文题。以GLM-5.1为例,其在通用对齐集英文题上的正确率达98.30%,但反问式中文版本正确率降至78.89%。在困难对齐集上,这种差距更为显著:英文正确率84.70%,反问式中文版本仅52.30%,接近随机猜测水平。
模型规模对中文鲁棒性影响显著。Qwen3-32B在通用中文题上的平均正确率达95.06%,反问式中文版本为93.53%;而Qwen3-8B的通用中文平均正确率仅79.61%,反问式中文版本为68.69%。困难集上,Qwen3-32B的英文正确率96.05%,反问式中文版本降至69.35%。这表明,更大规模的模型在理解非标准中文表达方面表现更优,但问题仍未完全解决。
部分模型展现独特表现。Ministral-8B的英文正确率低于Qwen3系列,但在困难集的某些中文变体上表现更优,如自然书面中文版本正确率达77.05%,高于Qwen3-8B和Qwen3-14B。这表明,英文逻辑准确率与中文逻辑鲁棒性并非同步提升,而是两种相对独立的能力。
小规模模型暴露出严重偏差问题。Qwen3-0.6B几乎对所有题目回答“是”,而通用对齐集78.33%的题目答案为“是”,使其“无脑”回答正确率达78.30%;Ministral-3B则倾向于回答“否”,在“否”答案占多数的题型上表现“优异”,但在“是”答案占多数的题型上几乎全错。研究团队通过偏差感知指标分析发现,这两个模型的平衡准确率远低于总体准确率,Qwen3-0.6B的平衡准确率仅50%,完全等同于随机猜测。
为区分人工智能错误源于逻辑推理能力不足还是中文理解偏差,研究团队设计“回译探针”实验:将标准中文版本翻译回英文,重新测试模型表现。结果显示,在通用对齐集上,回译显著提升多数模型正确率。例如,Qwen3-8B在标准中文上的正确率90.53%,回译后升至99.10%;Qwen3-32B从95.73%升至99.30%。这表明,通用逻辑任务中,人工智能的中文错误多因未能准确解码逻辑结构,而非逻辑推理能力不足。
但在困难对齐集上,回译效果复杂。Qwen3-8B和Qwen3-14B回译后正确率提升,Ministral-8B小幅提升,而Qwen3-32B回译后下降4.10个百分点,GLM-5.1下降18.05个百分点。这可能是因为翻译简化了措辞、丢失判断细节或引入新歧义。对于强模型,原版中文可能包含有用信息,回译反而削弱其表现。
纯中文集的15类现象中,回译效果分化明显。省略成分类题目回译后,Ministral-8B正确率从20%升至100%;时序与因果混淆类也有显著提升。模糊量词类在多个模型上回译后正确率大幅提高。然而,反讽类题目回译后表现恶化,Qwen3-14B正确率从79%降至18%,谐音词和品牌名称类在Ministral-8B上从98%降至30%。这是因为讽刺语气和谐音双关在翻译中被抹平,模型失去判断线索。
研究还发现,命题等价法则是人工智能的“绊脚石”。Ministral-8B在英文等价法则题上的正确率94.67%,标准中文仅23.56%,反问式中文8.00%。GLM-5.1在英文等价法则题上正确率98.22%,标准中文78.22%,自然书面中文34.44%,反问式中文43.33%。这表明,等价关系需全局追踪和真值条件比较,中文改写易打乱精确追踪。
有趣的是,某些逻辑谬误模板上,中文版本正确率高于英文版本。Ministral-3B在英文无效推理题上正确率91.50%,五种中文版本均达100%;Ministral-8B在英文无效推理题上正确率73.25%,标准中文达94.75%。研究团队解释,某些谬误在中文“忠实翻译”版本中表达更清晰,错误更易被识别;而英文原版措辞简洁,反而缺乏语义线索。
针对性增强实验显示,优化表述可显著提升人工智能正确率。对于Qwen3-8B,“分支推理”类模板英文原版正确率10%,增强版达100%;Qwen3-14B在分支推理上英文原版0%,增强版100%。“无效量词分配”“存在谬误”等模板也出现类似提升。这再次证明,人工智能的逻辑错误多源于表达方式理解偏差,而非逻辑规则掌握不足。
在纯中文集的15类现象中,不同模型表现差异显著。条件标记词类题目正确率多在60%至78%之间;部分否定与全称否定类题目正确率普遍较低,Ministral-8B仅43%,Qwen3-32B仅51%;时序与因果混淆类题目正确率最低,Ministral-8B为0%,其他模型多在13%至40%之间。模糊量词类题目正确率普遍较低,Qwen3-32B仅10%,Ministral-8B仅12%,GLM-5.1表现最好但也仅91%。
相比之下,多义词与同形字类、品牌名和谐音词类、法规规则式中文等现象上,多数模型表现较好,正确率普遍在80%至100%之间。反讽类题目中,Qwen3-32B正确率96%,GLM-5.1正确率95%,Ministral-8B正确率竟达100%,表明这些模型在识别中文反讽常见句式上有一定积累。
这项研究通过CHLOGIC工具,为衡量人工智能多语言逻辑鲁棒性提供了细粒度、可重复、可控的评估方法。其价值不在于评判人工智能表现优劣,而在于为追踪模型迭代改进中的中文逻辑理解弱点提供依据,为人工智能在多语言环境下的实际可靠性评估提供支持。











