ITBear旗下自媒体矩阵:

参数量仅1B的小模型,如何以架构革新超越百倍规模顶尖AI?

   时间:2026-06-20 01:02:40 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

一项突破性研究在人工智能领域引发关注:一支研究团队开发的“循环世界模型”(LoopWM)以极小参数量在世界建模任务中超越顶尖商业模型。该模型参数量仅约10亿,却在性能上全面超越参数量超其百倍的竞品,其核心突破并非依赖传统的大规模参数堆砌,而是通过创新的架构设计实现效率跃升。这一成果以论文形式公开,编号为arXiv:2606.18208v1,为复杂环境预测任务提供了全新思路。

世界模型的本质是构建一个“虚拟沙盘”,通过模拟环境对动作的反馈来预测未来状态。以自动驾驶为例,系统需在毫秒间推演车辆转向后的道路变化、周围车辆反应等连锁事件。然而,物理世界的连续性导致预测误差呈指数级累积——如同用有偏差的尺子反复测量,初始微小误差在多次迭代后可能彻底偏离真实值。传统解决方案通过增加模型深度提升单步精度,但随之而来的计算成本激增,使得实时性要求高的场景难以应用。

研究团队从语言模型领域获得灵感,引入“循环架构”破解难题。在大型语言模型中,循环变换器通过共享参数实现高效计算:信息在单一层级中循环处理,参数量较传统多层模型减少90%以上,同时保持相近性能。团队将这一理念迁移至世界建模,提出“循环动态核心”架构——模型不再一次性完成所有计算,而是像经验丰富的棋手般反复推敲:面对简单局面快速落子,面对复杂局势则多轮思考。这种动态调整机制使计算资源精准投向关键步骤,避免无效运算。

技术实现上,该架构包含四大模块:观察编码器将视觉信息压缩为数字特征;动作嵌入器统一动作与环境数据的表达维度;循环动态核心作为“思考引擎”,通过参数共享的变换器模块迭代精化预测;预测头将最终状态解码为具体输出。在纯想象训练阶段,模型无需真实环境反馈,仅依赖自身预测循环推演,形成自洽的预测链条。

循环架构面临的核心挑战是“数值失控”——若每次迭代都放大隐藏状态,经过数千步推演后模型将彻底崩溃。研究团队通过数学约束解决这一难题:他们设计了一种谱约束参数化方法,强制记忆传递矩阵的数值范围严格小于1,从原理上杜绝误差发散。这种约束不依赖训练技巧,为长程预测提供了理论稳定性保障,此前所有世界模型架构均未实现这一特性。

训练策略同样充满巧思。团队采用“随机深度训练”:每次迭代循环次数从泊松分布中随机抽取,迫使模型适应不同计算深度。这种设计类似让棋手同时训练快棋与慢棋,最终形成“任意深度皆可应对”的通用能力。损失函数综合画面重建、奖励预测、终止状态判断三项指标,反向传播时仅回溯部分循环步数,平衡训练效率与内存占用。

在推理阶段,“自适应早退”机制进一步优化计算资源分配。轻量级门控网络评估每次循环的预测置信度,当结果达到阈值时立即终止迭代。实验显示,面对简单场景时模型仅需4次循环即可输出准确结果,计算量较固定深度模型减少25倍;在包含大量简单状态转换的长序列推演中,总体计算节省可达两个数量级。更关键的是,推理时的最大循环次数可突破训练均值,实现“测试时计算缩放”,为性能提升预留空间。

另一项创新“推迟解码”则重构了预测流程。传统模型每步推演都需生成完整画面,如同作家每写一段就停笔润色,分散了对核心逻辑的专注。新架构改为先在潜在空间积累状态变化,最终一次性生成完整输出。为防止隐藏状态漂移,团队引入潜在一致性损失和谱收缩预算两项约束:前者用冻结编码器对齐中间状态,后者限制长程推演的总变化量。渐进式训练课程从单步预测逐步过渡到多步推演,确保模型稳定性。

实验数据验证了架构优势。在ScienceWorld数据集的14个任务中,循环世界模型精确匹配率达68.4%,较竞品claude-opus-4-6-max高出21个百分点;词级F1分数达85.3%,领先12.5个百分点。在“Lifespan”任务中,竞品完全无法预测正确结果,而该模型取得满分。AlfWorld数据集上,尽管gemini-3-flash在精确匹配率上略优,但循环世界模型在BLEU分数和实体得分上保持领先。特别在长程预测中,随着步数增加,推迟解码的优势愈发显著:Step 5时精确匹配率较基线提升113.8%,BLEU分数提升108.2%。

这项研究揭示了世界模型发展的新维度——“迭代潜在深度”。传统提升路径依赖扩大模型规模或增加训练数据,而循环架构通过动态调整推理时的循环次数,在固定参数量下实现性能提升。这种缩放方式与前两者相互独立,可叠加使用,为未来研究开辟了广阔空间。团队同时指出,当前成果主要验证于文本世界建模任务,连续视觉环境的验证仍在推进中,完整缩放律分析也有待进一步探索。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version