滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI“照葫芦画瓢”却难解推理难题：链式推理的边界究竟在哪？

时间：2026-06-27 21:28:32 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，用“链式推理”训练小模型曾被视为提升其推理能力的突破口。这种方法的逻辑看似无懈可击：通过让模型学习大模型或程序生成的详细解题步骤，小模型便能“继承”推理能力，逐步掌握解题技巧。然而，一项独立研究通过精心设计的实验发现，这一方法存在根本性缺陷，尤其在处理需要回溯搜索的复杂问题时，小模型的表现会彻底“撞墙”。

研究以2026年NVIDIA与Kaggle联合举办的AI推理竞赛为实验场景，选取九类不同推理任务，包括罗马数字转换、单位换算、自由落体计算、单字母替换密码解码、二进制逻辑规则推断、数字方程归纳及密码算术等。这些题目均由固定程序自动生成，确保训练集与测试集同源，便于直接评估模型的学习效果。研究者使用总参数300亿的混合架构模型Nemotron-3-Nano-30B，通过“轻量适配器”（LoRA）技术进行训练，数据完全来自程序生成的合成样本，与测试题目无重叠。

实验结果显示，对于“顺推题”——即解题步骤可单向推进、无需回溯的任务，如罗马数字转换、单位换算和自由落体计算，模型的准确率均达到99%以上。这类问题的共同特点是，解题过程像“滚下山坡的石头”，无需反复试错。例如，在单位换算中，模型只需根据已知公式直接计算即可得出答案。单字母替换密码解码虽稍复杂，但因题目中的单词均来自固定词表，模型可通过传播已知字母对应关系逐步缩小范围，最终准确率同样接近满分。

然而，当研究转向需要回溯搜索的密码算术问题时，模型的表现急转直下。密码算术要求从若干算式中推断符号与数字的对应关系及运算规则，其本质是“在迷宫中反复试错”。尽管研究者为这类问题编写了基于回溯搜索的Python程序，该程序能解决约71%的题目，但模型在训练后的准确率始终徘徊在1%至7%之间，无论训练文本如何优化或训练方法如何调整，均无法突破这一瓶颈。

深入分析发现，密码算术的“不可推导性”是关键原因。研究者通过测量“前向可推导性”发现，若仅允许单向推理，659道题中仅1道可解，占比约0.15%。符号与数字间的“互信息”几乎为零，意味着两者无相关性，模型无法通过符号外观猜测对应数字。更严重的是，模型在训练中学会了“判决即标记”的错误模式：尽管能正确计算每一步的数字，但在得出结论时却套用固定模板，导致“算对数字却下错结论”的荒诞现象。例如，模型可能正确计算出“6×4=24”，却错误地写下“无匹配项，排除”。

为验证这一现象的因果关系，研究者设计了对照实验：在密码算术任务中，分别向模型提供无规则、部分规则和完整规则。结果显示，提供完整规则时，模型准确率跃升至57.1%，而提供部分规则时准确率仅提升1.8%。这表明，只要问题中存在需要搜索的部分，模型的推理机制就会崩溃，因为“判决”与“证据”之间的逻辑纽带被切断。

研究者进一步测试了不同架构的模型，包括纯Transformer架构的小模型Llama-3.2-3B、Qwen3.5-4B，以及混合专家Transformer模型gpt-oss-20b，结果均显示密码算术的准确率不超过4%。即使使用参数高达6710亿的DeepSeek-V3.1模型，直接提问的准确率也仅为5%，而Nemotron-Super-120B模型因输出过长甚至无法完成计算。这表明，搜索问题的不可蒸馏性是任务本身的固有属性，与模型规模或架构无关。

在二进制逻辑规则推断任务中，研究者测试了“STaR”自我迭代训练方法，即让模型通过收集正确答案形成正向循环。结果显示，该方法有效提升了模型表现，准确率从5.3%逐步提升至67.8%。这是因为该任务的搜索空间有限，模型偶尔能走通完整路径，从而将真实成功案例作为训练样本。然而，在密码算术任务中，模型几乎无法找到正确答案，导致STaR方法失效，强化学习同样因奖励信号稀疏而无法生效。

竞赛数据进一步印证了这一结论。4355支参赛队伍中，2236支达到0.85分，仅66支突破0.87分，冠军队伍NullSira以0.92分夺冠。NullSira的策略是“记忆加验证”：提前将所有可能的密码算术结果整理成查询表，让模型通过训练记住这张表，解题时直接查表并验证候选答案。这一方法将搜索步骤从模型任务中移除，使其专注于记忆与验证，从而突破了其他队伍的天花板。

研究者指出，这一发现对AI训练具有重要启示：若要训练模型掌握推理任务，需优先测试模型在未经训练时能否偶尔成功，并用这些成功案例而非人类编写的讲解文本进行训练。因为模型只能从自身执行过的过程中学习，而非从他人告知的“应该如何执行”的故事中理解逻辑。对于必须回溯搜索的问题，链式推理蒸馏仅能教会模型“背台词”，而非真正思考。

更多>同类资讯

麦吉尔大学与Mila研究院创新分级语言模型：AI开放与安全共存新路径

06-27

杭州Om AI发布VLX模型，端侧流式多模态开启物理世界AI新篇章

06-27

尊界S800以138.8万起售入场余承东发布会状态切换背后的品牌突围

06-27

全新命名！ GPT-5.6最强「太阳」来了，完爆Mythos 5

06-27

DeepSeek又变强了，推理速度最高提升85%

06-27

一盆冷水：99%的AI原生创业，根本没有护城河

06-27

高通新架构发力：数据中心芯片技术将赋能智能手机，端侧AI能力迎升级契机

06-27

AI原生创业热潮下的冷思考：多数应用缘何难筑护城河？

06-27

DeepSeek推出DSpark框架：突破推理瓶颈，实现速度与质量双飞跃

06-27

中国2030年前载人登月势在必行！四大关键意义，开启太空竞争新格局

更令人振奋的是中国科学家的新发现：过去普遍认为氦-3需要在700℃以上高温加热才能提取，但最新研究表明，通过机械破碎方式，有望在常温条件下释放以气泡形式存在的氦-3；同时月壤中的钛铁矿具备弱磁性，可通过磁选方…

06-27

AI项目成败关键何在？选对Token服务商，系统集成运维不再拖后腿

大模型进入企业应用深水区后，Token服务商的选择标准，已经从“能不能调用模型”，转向“调用成本是否可控、链路是否稳定、权限是否合规、业务能否真正落地”。下面选取两类市场上常见方案进行对比：一家偏企业集成与…

06-27

vivo X Fold6重磅登场：性能影像续航全面升级，7999元起售引关注

在充电和续航上，vivo X Fold6这款智能手机的电池容量为7000mAh，采用双电池并联设计，首发第五代硅负极技术搭配第三代半固态技术，并且，这款折叠屏手机还支持80W有线快充和40W无线快充，包装内…

06-27

苹果iPhone 18 Pro芯片A20 Pro新爆料：WMCM封装散热优，NPU强化内存升级

06-27

AI新赛道：Token经营时代，华为如何为运营商竞争力升级赋能？

06-27

皮革企业跨界“追光”：兴业科技布局磷化铟能否开启第二增长曲线？

06-27

点击查看更多 +

全站最新

家庭智能新选择：天猫精灵、小度X10 Ultra、小米Sound三款音箱大比拼

高通骁龙8E6系列9月登场：2nm工艺加持，小米18系列两款机型率先搭载

小米Sound Pro对比华为Sound X4：解锁AI音箱核心功能与音质新体验

小米智能音箱Pro和Sound Pro深度测评：帮你找到最适合的AI音箱之选

小米REDMI K90至尊版6月30日发布，游戏性能拉满，老机型电池升级服务也来了

手机市场迎涨价潮！刚需用户宜早入手，非刚需用户可静待价格回落

热门内容

本栏最新

敦煌大漠燃情夜：许巍助阵捷途“方盒子”燃油插混双车闪耀登场

360潘剑锋：智能体时代安全新范式，聚焦驾驭AI不确定性难题

华为赵振龙：AI驱动自智网络双核心演进，无线网络智能体引领行业新未来

国产存储系统闪耀ISC2026：国家超算互联网ParaStor双榜夺冠领跑全球

领益智造港股上市募资超82亿港元加速布局AI硬件新赛道

研究报告：生成式AI经济表现亮眼过去12个月销售额达1100亿美元

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.