家庭服务机器人要实现家电操作,面临着多重复杂挑战。家电设备包含按钮、旋钮、舱门等不同部件,操作时还需考虑模式切换、状态限制以及内置程序等因素。机器人不仅需要准确识别家电外观结构,还要理解操作说明并严格按照流程执行动作。因此,依托说明书进行智能操作规划,成为具身智能在居家环境中应用的关键能力。
为解决说明书驱动下的家电智能操作规划难题,一支科研团队在国际顶级计算机视觉会议上推出了RealAppliance数据集及配套评测基准。该成果由北京大学科研人员联合上纬启元研究院和京东共同完成,旨在通过高保真仿真体系破解家庭服务机器人实操评测的痛点,推动具身智能技术更快落地真实居家场景。
在真实环境中系统评测基于说明书的家电操作规划存在诸多困难。微波炉、烤箱等家电若被误操作,可能导致设备损坏甚至引发安全隐患。同时,家用电器种类繁多,购置和维护成本高昂,难以开展大规模、标准化、可复现的实体实验。现有的仿真资源在设备外形、部件功能、运行程序等方面与真实产品存在较大差距,无法满足说明书驱动型操作规划的测评需求。
该团队此前已在相关领域取得初步成果,首次提出了基于说明书的家电操作研究方向。此次研究进一步拓展了测评维度,将单一手册理解升级为说明书文本、设备外观形态、交互操控功能、程序运行状态一体化的完整操作系统。RealAppliance数据集包含100款高精度家电数字模型,覆盖14类日常家用电器,从真实说明书、外观构造、交互方式、程序逻辑四个维度全面复刻实体家电运行特征。
数据集不仅收录了中、俄、法、德等多语种设备手册,还确保每一款数字资产的尺寸参数、部件功能、状态切换规则与实物一致。这种设计为智能算法测试提供了可复用、可拓展的仿真实验载体,解决了传统数据集缺乏手册对齐与程序逻辑的问题,实现了说明书、资产与交互逻辑的系统对齐。
在数字资产搭建过程中,团队遵循严格标准筛选样本,广泛收集海内外家电实物照片与原版说明书。通过专业建模软件复刻家电外观,拆分独立功能部件并精细打磨细节,导入仿真平台生成标准数字模型,并按运动形式分类配置关节结构。同时,团队构建了物理与电子两大模块化交互机制,涵盖弹簧复位、磁吸闭合、屏幕显示、电机运转等10类运行模式,使仿真家电具备真实操作反馈与状态变化能力。最后,团队对照原版说明书编写运行脚本,设定核心参数,完整还原家电工作流程。
配套的RealAppliance-Bench评测基准围绕家电实操全流程,设置了手册页面检索、开环操作规划、电器部件定位、闭环规划调整、全过程推理五大递进式测试任务。这些任务全面考核智能模型的文档解析、动作规划、空间识别、故障修正、端到端作业等核心素养,精准衡量算法在家电实操场景的综合性能。
团队选取多款主流多模态大模型和具身规划模型进行系统性测评,发现当前智能算法存在明显短板。在检索任务中,具身模型文本理解能力较弱;动作规划普遍存在步骤缺失或误用问题,未能完全掌握设备运行逻辑;部件空间定位精准度不足,跨模态信息匹配难度较大;面对突发工况,模型难以快速调整作业方案;全流程连贯作业测试中,所有模型均未能成功完成,多环节误差叠加暴露了现有算法在居家实操中的稳定性问题。






