ITBear旗下自媒体矩阵:

世界价值模型助力机器人“看懂”操作,解锁高效学习新路径

   时间:2026-06-27 21:35:30 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

机器人技术正经历一场静默却意义深远的变革。科研人员不再满足于让机器人机械执行指令,而是试图赋予它们“理解任务本质”的能力——当机器人从海量操作视频中学习时,如何自动筛选出真正有价值的学习样本,成为亟待突破的工程难题。近日,一支由高校与科技企业联合组成的研究团队提出“世界价值模型”(WVM),并配套发布“次优价值测试集”(Suboptimal-Value-Bench),为机器人自主学习开辟了新路径。

传统机器人学习方法依赖海量人类操作视频,但这些素材质量参差不齐:既有专业人员的高效示范,也有因失误、犹豫导致的“次优片段”。若机器人不加区分地学习,极易将无效动作误认为正常操作,导致策略低效且不稳定。核心问题在于,现有技术缺乏判断“任务当前进展程度”的工具——若能为每帧视频标注0到1的完成度分数,机器人便可优先学习高效片段,忽略无效数据。

当前主流的价值模型多基于“视觉语言模型”(VLM)构建,这类模型擅长通过单张图片或稀疏截图识别物体,却无法理解时间动态。例如,当机器人爪子连续三帧前伸后突然缩回时,VLM仅能看到静态画面,无法判断这一动作是否意味着任务倒退。研究团队指出,现有方法存在三大缺陷:监督信号过于简略(仅用单一数字标注完成度)、缺乏通用性(仅适用于特定任务)、时间感知能力薄弱。这些问题导致模型难以捕捉任务进展的细腻规律。

与VLM不同,“世界模型”通过预测视频未来帧来理解时间序列,其核心能力正是分析事物如何随时间变化。研究团队提出,若将世界模型的时间理解能力迁移至价值评估,或许能突破现有瓶颈。WVM的设计灵感便源于此:它以开源视频生成模型Wan2.2为基础,通过双流水线架构实现视频生成与价值评估的协同训练。

在技术实现上,WVM将视频截取为包含“前缀帧”“当前观测帧”和“未来预测帧”的时间窗口,经视频变分自编码器压缩为隐空间特征后,由两条并行流水线处理:一条负责生成后续视频帧,另一条专门输出价值分数序列。两条流水线通过“混合变换器”机制耦合,价值评估模块可“旁听”视频生成模块的中间特征,但不影响其核心任务。这种设计确保价值评估充分吸收时空信息,同时避免干扰世界模型的预测能力。

为提升模型鲁棒性,研究团队引入两项创新训练策略。一是“前缀随机化”:在训练时以50%概率用随机数替换正确的前缀分数,迫使模型依赖视觉内容而非历史分数进行判断,防止“偷懒”行为。二是“视频倒放增强”:通过倒序排列视频帧模拟任务倒退场景,或重复播放同一帧模拟停滞状态,帮助模型理解非单调进展模式。这些策略使WVM能准确识别操作中的犹豫、重试等次优行为。

配套发布的Suboptimal-Value-Bench测试集填补了行业空白。该数据集包含800条人工标注的机器人操作轨迹,覆盖三种平台和15项任务,总时长超213分钟。每条轨迹均标注了帧级“真实价值曲线”,重点评估模型对“犹豫”(任务停滞)和“重试”(任务倒退)的识别能力。研究团队采用两阶段标注流程:先由视觉语言模型初步定位无效片段,再由人工精确调整边界,确保标注质量。

实验数据显示,WVM在多项评测中表现优异。在“犹豫检测”任务中,其平均RMSE误差率仅为0.05,显著低于其他方法的0.14;在“重试检测”任务中,WVM的VOC相关性得分达0.78,而最强基线仅获0.62。即使在传统评测指标“Expert-VOC”上,WVM仍以0.95的平均分领先,证明其不仅能处理次优数据,在理想场景下同样表现卓越。

下游策略学习实验进一步验证了WVM的实用性。在仿真和真实机器人任务中,使用WVM筛选数据训练的策略成功率显著提升:仿真任务中平均成功率提高超20%,真实任务中提升幅度达35%以上。三种数据利用方式(二值过滤、百分位过滤、优势加权回归)均优于基线,表明WVM的价值评分能有效区分高效与无效操作。

消融实验揭示了WVM设计的关键细节。若完全移除视频生成训练目标,模型对次优行为的识别能力将大幅下降;前缀随机化比例设为50%时,模型在连续性与准确性间达到最佳平衡;流动匹配输出头的设计比离散化预测方案更能保留帧间细微差异,从而提升排序正确性。这些发现为后续研究提供了重要参考。

尽管WVM展现了强大潜力,研究团队也指出其局限性:受算力限制,训练数据规模有限,面对陌生任务时泛化能力仍需提升;测试集目前聚焦于抓取类任务,对精细操作和复杂长程任务的覆盖不足。不过,这项研究已证明,世界模型的时间理解能力可为机器人学习评估提供新范式,随着视频生成技术的进步,此类框架有望成为机器人自主学习的核心基础设施。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version