ITBear旗下自媒体矩阵:

AI“照葫芦画瓢”却难解推理难题:链式推理的边界究竟在哪?

   时间:2026-06-27 21:28:32 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能领域,用“链式推理”训练小模型曾被视为提升其推理能力的突破口。这种方法的逻辑看似无懈可击:通过让模型学习大模型或程序生成的详细解题步骤,小模型便能“继承”推理能力,逐步掌握解题技巧。然而,一项独立研究通过精心设计的实验发现,这一方法存在根本性缺陷,尤其在处理需要回溯搜索的复杂问题时,小模型的表现会彻底“撞墙”。

研究以2026年NVIDIA与Kaggle联合举办的AI推理竞赛为实验场景,选取九类不同推理任务,包括罗马数字转换、单位换算、自由落体计算、单字母替换密码解码、二进制逻辑规则推断、数字方程归纳及密码算术等。这些题目均由固定程序自动生成,确保训练集与测试集同源,便于直接评估模型的学习效果。研究者使用总参数300亿的混合架构模型Nemotron-3-Nano-30B,通过“轻量适配器”(LoRA)技术进行训练,数据完全来自程序生成的合成样本,与测试题目无重叠。

实验结果显示,对于“顺推题”——即解题步骤可单向推进、无需回溯的任务,如罗马数字转换、单位换算和自由落体计算,模型的准确率均达到99%以上。这类问题的共同特点是,解题过程像“滚下山坡的石头”,无需反复试错。例如,在单位换算中,模型只需根据已知公式直接计算即可得出答案。单字母替换密码解码虽稍复杂,但因题目中的单词均来自固定词表,模型可通过传播已知字母对应关系逐步缩小范围,最终准确率同样接近满分。

然而,当研究转向需要回溯搜索的密码算术问题时,模型的表现急转直下。密码算术要求从若干算式中推断符号与数字的对应关系及运算规则,其本质是“在迷宫中反复试错”。尽管研究者为这类问题编写了基于回溯搜索的Python程序,该程序能解决约71%的题目,但模型在训练后的准确率始终徘徊在1%至7%之间,无论训练文本如何优化或训练方法如何调整,均无法突破这一瓶颈。

深入分析发现,密码算术的“不可推导性”是关键原因。研究者通过测量“前向可推导性”发现,若仅允许单向推理,659道题中仅1道可解,占比约0.15%。符号与数字间的“互信息”几乎为零,意味着两者无相关性,模型无法通过符号外观猜测对应数字。更严重的是,模型在训练中学会了“判决即标记”的错误模式:尽管能正确计算每一步的数字,但在得出结论时却套用固定模板,导致“算对数字却下错结论”的荒诞现象。例如,模型可能正确计算出“6×4=24”,却错误地写下“无匹配项,排除”。

为验证这一现象的因果关系,研究者设计了对照实验:在密码算术任务中,分别向模型提供无规则、部分规则和完整规则。结果显示,提供完整规则时,模型准确率跃升至57.1%,而提供部分规则时准确率仅提升1.8%。这表明,只要问题中存在需要搜索的部分,模型的推理机制就会崩溃,因为“判决”与“证据”之间的逻辑纽带被切断。

研究者进一步测试了不同架构的模型,包括纯Transformer架构的小模型Llama-3.2-3B、Qwen3.5-4B,以及混合专家Transformer模型gpt-oss-20b,结果均显示密码算术的准确率不超过4%。即使使用参数高达6710亿的DeepSeek-V3.1模型,直接提问的准确率也仅为5%,而Nemotron-Super-120B模型因输出过长甚至无法完成计算。这表明,搜索问题的不可蒸馏性是任务本身的固有属性,与模型规模或架构无关。

在二进制逻辑规则推断任务中,研究者测试了“STaR”自我迭代训练方法,即让模型通过收集正确答案形成正向循环。结果显示,该方法有效提升了模型表现,准确率从5.3%逐步提升至67.8%。这是因为该任务的搜索空间有限,模型偶尔能走通完整路径,从而将真实成功案例作为训练样本。然而,在密码算术任务中,模型几乎无法找到正确答案,导致STaR方法失效,强化学习同样因奖励信号稀疏而无法生效。

竞赛数据进一步印证了这一结论。4355支参赛队伍中,2236支达到0.85分,仅66支突破0.87分,冠军队伍NullSira以0.92分夺冠。NullSira的策略是“记忆加验证”:提前将所有可能的密码算术结果整理成查询表,让模型通过训练记住这张表,解题时直接查表并验证候选答案。这一方法将搜索步骤从模型任务中移除,使其专注于记忆与验证,从而突破了其他队伍的天花板。

研究者指出,这一发现对AI训练具有重要启示:若要训练模型掌握推理任务,需优先测试模型在未经训练时能否偶尔成功,并用这些成功案例而非人类编写的讲解文本进行训练。因为模型只能从自身执行过的过程中学习,而非从他人告知的“应该如何执行”的故事中理解逻辑。对于必须回溯搜索的问题,链式推理蒸馏仅能教会模型“背台词”,而非真正思考。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version