滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

参数量仅1B的小模型，如何以架构革新超越百倍规模顶尖AI？

时间：2026-06-20 01:02:40 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

一项突破性研究在人工智能领域引发关注：一支研究团队开发的“循环世界模型”（LoopWM）以极小参数量在世界建模任务中超越顶尖商业模型。该模型参数量仅约10亿，却在性能上全面超越参数量超其百倍的竞品，其核心突破并非依赖传统的大规模参数堆砌，而是通过创新的架构设计实现效率跃升。这一成果以论文形式公开，编号为arXiv:2606.18208v1，为复杂环境预测任务提供了全新思路。

世界模型的本质是构建一个“虚拟沙盘”，通过模拟环境对动作的反馈来预测未来状态。以自动驾驶为例，系统需在毫秒间推演车辆转向后的道路变化、周围车辆反应等连锁事件。然而，物理世界的连续性导致预测误差呈指数级累积——如同用有偏差的尺子反复测量，初始微小误差在多次迭代后可能彻底偏离真实值。传统解决方案通过增加模型深度提升单步精度，但随之而来的计算成本激增，使得实时性要求高的场景难以应用。

研究团队从语言模型领域获得灵感，引入“循环架构”破解难题。在大型语言模型中，循环变换器通过共享参数实现高效计算：信息在单一层级中循环处理，参数量较传统多层模型减少90%以上，同时保持相近性能。团队将这一理念迁移至世界建模，提出“循环动态核心”架构——模型不再一次性完成所有计算，而是像经验丰富的棋手般反复推敲：面对简单局面快速落子，面对复杂局势则多轮思考。这种动态调整机制使计算资源精准投向关键步骤，避免无效运算。

技术实现上，该架构包含四大模块：观察编码器将视觉信息压缩为数字特征；动作嵌入器统一动作与环境数据的表达维度；循环动态核心作为“思考引擎”，通过参数共享的变换器模块迭代精化预测；预测头将最终状态解码为具体输出。在纯想象训练阶段，模型无需真实环境反馈，仅依赖自身预测循环推演，形成自洽的预测链条。

循环架构面临的核心挑战是“数值失控”——若每次迭代都放大隐藏状态，经过数千步推演后模型将彻底崩溃。研究团队通过数学约束解决这一难题：他们设计了一种谱约束参数化方法，强制记忆传递矩阵的数值范围严格小于1，从原理上杜绝误差发散。这种约束不依赖训练技巧，为长程预测提供了理论稳定性保障，此前所有世界模型架构均未实现这一特性。

训练策略同样充满巧思。团队采用“随机深度训练”：每次迭代循环次数从泊松分布中随机抽取，迫使模型适应不同计算深度。这种设计类似让棋手同时训练快棋与慢棋，最终形成“任意深度皆可应对”的通用能力。损失函数综合画面重建、奖励预测、终止状态判断三项指标，反向传播时仅回溯部分循环步数，平衡训练效率与内存占用。

在推理阶段，“自适应早退”机制进一步优化计算资源分配。轻量级门控网络评估每次循环的预测置信度，当结果达到阈值时立即终止迭代。实验显示，面对简单场景时模型仅需4次循环即可输出准确结果，计算量较固定深度模型减少25倍；在包含大量简单状态转换的长序列推演中，总体计算节省可达两个数量级。更关键的是，推理时的最大循环次数可突破训练均值，实现“测试时计算缩放”，为性能提升预留空间。

另一项创新“推迟解码”则重构了预测流程。传统模型每步推演都需生成完整画面，如同作家每写一段就停笔润色，分散了对核心逻辑的专注。新架构改为先在潜在空间积累状态变化，最终一次性生成完整输出。为防止隐藏状态漂移，团队引入潜在一致性损失和谱收缩预算两项约束：前者用冻结编码器对齐中间状态，后者限制长程推演的总变化量。渐进式训练课程从单步预测逐步过渡到多步推演，确保模型稳定性。

实验数据验证了架构优势。在ScienceWorld数据集的14个任务中，循环世界模型精确匹配率达68.4%，较竞品claude-opus-4-6-max高出21个百分点；词级F1分数达85.3%，领先12.5个百分点。在“Lifespan”任务中，竞品完全无法预测正确结果，而该模型取得满分。AlfWorld数据集上，尽管gemini-3-flash在精确匹配率上略优，但循环世界模型在BLEU分数和实体得分上保持领先。特别在长程预测中，随着步数增加，推迟解码的优势愈发显著：Step 5时精确匹配率较基线提升113.8%，BLEU分数提升108.2%。

这项研究揭示了世界模型发展的新维度——“迭代潜在深度”。传统提升路径依赖扩大模型规模或增加训练数据，而循环架构通过动态调整推理时的循环次数，在固定参数量下实现性能提升。这种缩放方式与前两者相互独立，可叠加使用，为未来研究开辟了广阔空间。团队同时指出，当前成果主要验证于文本世界建模任务，连续视觉环境的验证仍在推进中，完整缩放律分析也有待进一步探索。

更多>同类资讯

量子计算与AI碰撞新火花：IBM团队解锁语言模型“量子理解力”

06-20

美国为AI竞争加速布局：6家电网运营商助力数据中心电力供应升级

06-20

2026湾区科技节启幕深圳湾荣耀人形机器人亮相引爆科创热潮

同时，在深圳湾万象城的荣耀阿尔法全球旗舰店也同步开放体验，进一步拓宽本次科技节的线下体验场景。双方以“AI技术创新”为纽带，打通户外展演、主题市集、旗舰体验等多个场景，创新全民科创体验模式，丰富大湾区科创活动…

06-20

Claude Code新功能上线：AI实时“汇报工作” 团队协作效率飙升

06-19

荣耀参展2026湾区科技节以AI创新赋能科创产业发展

06-19

智谱股价半年狂飙18倍：技术登顶“塔尖”，财务仍在“爬坡”

06-19

百亿市值公司涉三大热门赛道，北向社保券商重仓，机遇与挑战并存

06-19

“科创郫都”首批微厘卫星升空，助力北斗实现厘米级高精度定位

值得关注的是，本次升空的全部组网卫星载荷也均在郫都区完成研制、生产制造，郫都区正全程深度参与星座整体建设。郫都区正加速推进通导融合卫星网联与产业应用创新中心建设，创新中心将始终坚持‘星座系统为牵引、先进平台…

06-19

GPT-5.6 Pro实测揭秘：与Fable 5互有胜负，性能升级但速度引争议

06-19

AI热潮致芯片短缺成本飙升，iPhone 18 Pro或涨价至1299美元起

06-19

AI产业告别资本泡沫：从概念炒作到务实深耕，细分场景成发展新引擎

但经过市场一轮筛选与冷却，如今的 AI 赛道早已褪去资本泡沫，行业共识从 “做大模型” 转向 “用好 AI”，务实落地成为评判技术价值的唯一标准。制造、文旅、政务、零售等细分领域，不再盲目接入全能通用大模型，…

06-19

Claude Code重磅更新：终端工作秒变交互网页，开启开发者协作新体验

想想一下，当你在终端里跟Claude Code对话写代码，它能把这段工作直接变成一个可交互的HTML网页，生成私密链接，浏览器里打开就能看。 Claude会把你的对话上下文、代码库、连接的工具数据全部吃进去…

06-19

荣耀亮相2026湾区科技节，携人形机器人展现AI硬核实力赋能产业

06-19

GPT发AI原创新成果了

06-19

Claude Code发了个“王炸”功能，打工人狂喜

06-19

点击查看更多 +

全站最新

极佳视界获10亿B2轮融资：以「双金字塔」驱动，加速物理AGI突破与场景落地

玛莎拉蒂焕新出击：三款车型齐改款，新轿车计划也提上日程

保时捷Taycan更新：E-Shift虚拟换挡登场，电动跑车能否重燃驾驶激情？

氢能两轮车批量落地：补能快续航稳，能否与锂电车共舞出行新未来？

探秘成都汽车城：266种测试场景护航，高端新能源“成都造”蓄势待发

本田Prelude 2027限量版登场，全红内外饰吸睛，目前仅在日本市场发售

热门内容

本栏最新

科技赋能社区温情，人文引领生态共建|亲邻科技以创新服务重塑现代社区价值

零跑2027款焕新：从“堆料”到细节打磨，未来能否续写传奇？

比亚迪大唐EV上市：23万级全尺寸SUV新标杆，950km续航+29项全球第一

HDC 2026聚焦鸿蒙生态：AI赋能数字内容，携手伙伴共探商业新路径

长沙启幕！吉利银河星耀7MAX携五大豪华颠覆实力开启美好出行新篇

第十届南博会：AI智能机器人引领服务创新科技助力传统制造业升级

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.