滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

世界价值模型助力机器人“看懂”操作，解锁高效学习新路径

时间：2026-06-27 21:35:30 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

机器人技术正经历一场静默却意义深远的变革。科研人员不再满足于让机器人机械执行指令，而是试图赋予它们“理解任务本质”的能力——当机器人从海量操作视频中学习时，如何自动筛选出真正有价值的学习样本，成为亟待突破的工程难题。近日，一支由高校与科技企业联合组成的研究团队提出“世界价值模型”（WVM），并配套发布“次优价值测试集”（Suboptimal-Value-Bench），为机器人自主学习开辟了新路径。

传统机器人学习方法依赖海量人类操作视频，但这些素材质量参差不齐：既有专业人员的高效示范，也有因失误、犹豫导致的“次优片段”。若机器人不加区分地学习，极易将无效动作误认为正常操作，导致策略低效且不稳定。核心问题在于，现有技术缺乏判断“任务当前进展程度”的工具——若能为每帧视频标注0到1的完成度分数，机器人便可优先学习高效片段，忽略无效数据。

当前主流的价值模型多基于“视觉语言模型”（VLM）构建，这类模型擅长通过单张图片或稀疏截图识别物体，却无法理解时间动态。例如，当机器人爪子连续三帧前伸后突然缩回时，VLM仅能看到静态画面，无法判断这一动作是否意味着任务倒退。研究团队指出，现有方法存在三大缺陷：监督信号过于简略（仅用单一数字标注完成度）、缺乏通用性（仅适用于特定任务）、时间感知能力薄弱。这些问题导致模型难以捕捉任务进展的细腻规律。

与VLM不同，“世界模型”通过预测视频未来帧来理解时间序列，其核心能力正是分析事物如何随时间变化。研究团队提出，若将世界模型的时间理解能力迁移至价值评估，或许能突破现有瓶颈。WVM的设计灵感便源于此：它以开源视频生成模型Wan2.2为基础，通过双流水线架构实现视频生成与价值评估的协同训练。

在技术实现上，WVM将视频截取为包含“前缀帧”“当前观测帧”和“未来预测帧”的时间窗口，经视频变分自编码器压缩为隐空间特征后，由两条并行流水线处理：一条负责生成后续视频帧，另一条专门输出价值分数序列。两条流水线通过“混合变换器”机制耦合，价值评估模块可“旁听”视频生成模块的中间特征，但不影响其核心任务。这种设计确保价值评估充分吸收时空信息，同时避免干扰世界模型的预测能力。

为提升模型鲁棒性，研究团队引入两项创新训练策略。一是“前缀随机化”：在训练时以50%概率用随机数替换正确的前缀分数，迫使模型依赖视觉内容而非历史分数进行判断，防止“偷懒”行为。二是“视频倒放增强”：通过倒序排列视频帧模拟任务倒退场景，或重复播放同一帧模拟停滞状态，帮助模型理解非单调进展模式。这些策略使WVM能准确识别操作中的犹豫、重试等次优行为。

配套发布的Suboptimal-Value-Bench测试集填补了行业空白。该数据集包含800条人工标注的机器人操作轨迹，覆盖三种平台和15项任务，总时长超213分钟。每条轨迹均标注了帧级“真实价值曲线”，重点评估模型对“犹豫”（任务停滞）和“重试”（任务倒退）的识别能力。研究团队采用两阶段标注流程：先由视觉语言模型初步定位无效片段，再由人工精确调整边界，确保标注质量。

实验数据显示，WVM在多项评测中表现优异。在“犹豫检测”任务中，其平均RMSE误差率仅为0.05，显著低于其他方法的0.14；在“重试检测”任务中，WVM的VOC相关性得分达0.78，而最强基线仅获0.62。即使在传统评测指标“Expert-VOC”上，WVM仍以0.95的平均分领先，证明其不仅能处理次优数据，在理想场景下同样表现卓越。

下游策略学习实验进一步验证了WVM的实用性。在仿真和真实机器人任务中，使用WVM筛选数据训练的策略成功率显著提升：仿真任务中平均成功率提高超20%，真实任务中提升幅度达35%以上。三种数据利用方式（二值过滤、百分位过滤、优势加权回归）均优于基线，表明WVM的价值评分能有效区分高效与无效操作。

消融实验揭示了WVM设计的关键细节。若完全移除视频生成训练目标，模型对次优行为的识别能力将大幅下降；前缀随机化比例设为50%时，模型在连续性与准确性间达到最佳平衡；流动匹配输出头的设计比离散化预测方案更能保留帧间细微差异，从而提升排序正确性。这些发现为后续研究提供了重要参考。

尽管WVM展现了强大潜力，研究团队也指出其局限性：受算力限制，训练数据规模有限，面对陌生任务时泛化能力仍需提升；测试集目前聚焦于抓取类任务，对精细操作和复杂长程任务的覆盖不足。不过，这项研究已证明，世界模型的时间理解能力可为机器人学习评估提供新范式，随着视频生成技术的进步，此类框架有望成为机器人自主学习的核心基础设施。

更多>同类资讯

AI“照葫芦画瓢”却难解推理难题：链式推理的边界究竟在哪？

06-27

麦吉尔大学与Mila研究院创新分级语言模型：AI开放与安全共存新路径

06-27

杭州Om AI发布VLX模型，端侧流式多模态开启物理世界AI新篇章

06-27

BrowserBC：将人类网页操作“炼”成技能，为Agent铺就通用浏览之路

06-27

尊界S800以138.8万起售入场余承东发布会状态切换背后的品牌突围

06-27

全新命名！ GPT-5.6最强「太阳」来了，完爆Mythos 5

06-27

DeepSeek又变强了，推理速度最高提升85%

06-27

一盆冷水：99%的AI原生创业，根本没有护城河

06-27

高通新架构发力：数据中心芯片技术将赋能智能手机，端侧AI能力迎升级契机

06-27

AI原生创业热潮下的冷思考：多数应用缘何难筑护城河？

06-27

DeepSeek推出DSpark框架：突破推理瓶颈，实现速度与质量双飞跃

06-27

中国2030年前载人登月势在必行！四大关键意义，开启太空竞争新格局

更令人振奋的是中国科学家的新发现：过去普遍认为氦-3需要在700℃以上高温加热才能提取，但最新研究表明，通过机械破碎方式，有望在常温条件下释放以气泡形式存在的氦-3；同时月壤中的钛铁矿具备弱磁性，可通过磁选方…

06-27

AI项目成败关键何在？选对Token服务商，系统集成运维不再拖后腿

大模型进入企业应用深水区后，Token服务商的选择标准，已经从“能不能调用模型”，转向“调用成本是否可控、链路是否稳定、权限是否合规、业务能否真正落地”。下面选取两类市场上常见方案进行对比：一家偏企业集成与…

06-27

vivo X Fold6重磅登场：性能影像续航全面升级，7999元起售引关注

在充电和续航上，vivo X Fold6这款智能手机的电池容量为7000mAh，采用双电池并联设计，首发第五代硅负极技术搭配第三代半固态技术，并且，这款折叠屏手机还支持80W有线快充和40W无线快充，包装内…

06-27

苹果iPhone 18 Pro芯片A20 Pro新爆料：WMCM封装散热优，NPU强化内存升级

06-27

点击查看更多 +

全站最新

家庭智能新选择：天猫精灵、小度X10 Ultra、小米Sound三款音箱大比拼

高通骁龙8E6系列9月登场：2nm工艺加持，小米18系列两款机型率先搭载

小米Sound Pro对比华为Sound X4：解锁AI音箱核心功能与音质新体验

小米智能音箱Pro和Sound Pro深度测评：帮你找到最适合的AI音箱之选

小米REDMI K90至尊版6月30日发布，游戏性能拉满，老机型电池升级服务也来了

手机市场迎涨价潮！刚需用户宜早入手，非刚需用户可静待价格回落

热门内容

本栏最新

敦煌大漠燃情夜：许巍助阵捷途“方盒子”燃油插混双车闪耀登场

360潘剑锋：智能体时代安全新范式，聚焦驾驭AI不确定性难题

华为赵振龙：AI驱动自智网络双核心演进，无线网络智能体引领行业新未来

国产存储系统闪耀ISC2026：国家超算互联网ParaStor双榜夺冠领跑全球

领益智造港股上市募资超82亿港元加速布局AI硬件新赛道

研究报告：生成式AI经济表现亮眼过去12个月销售额达1100亿美元

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.