ITBear旗下自媒体矩阵:

MIT与丰田研究院携手,以可控场景生成技术为机器人打造逼真虚拟训练场

   时间:2025-10-12 21:53:14 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近年来,以ChatGPT、Claude为代表的对话式人工智能系统凭借海量互联网文本数据,在文学创作、代码调试、知识问答等领域展现出强大能力。然而,当工程师试图将这些技术应用于实体机器人训练时,却发现仅靠语言数据远远不够——要让机械臂在复杂环境中精准完成抓取、堆叠等操作,必须依赖高度逼真的三维场景模拟。

麻省理工学院计算机科学与人工智能实验室与丰田研究院的联合研究团队,开发出名为"可控场景生成"的创新技术,为机器人训练开辟了新路径。该系统通过程序化方式构建厨房、客厅等日常场景,其训练数据库包含超过4400万个三维房间模型,涵盖桌椅、餐具等各类物体的精确参数。不同于传统依赖人工标注或简单物理引擎的方法,新技术能自动将现有数字资产重组为符合物理规律的新场景,确保叉子不会穿透碗碟、书本不会悬浮在空中等基础物理特性。

核心技术依托改进型扩散模型,该模型从随机噪声中逐步生成完整场景。研究人员创新性地引入"内部绘制"技术,如同在数字画布上逐步添加物体并调整位置。更关键的是采用蒙特卡洛树搜索算法,通过模拟数万种可能的物体排列组合,自动筛选出最符合物理规则的场景配置。实验显示,系统能在餐厅场景中合理放置多达34件物品,远超训练数据中17件的平均水平,包括成功构建多层蒸笼堆叠等复杂结构。

强化学习机制的引入使场景生成更具针对性。系统在基础训练后进入第二阶段,通过设定奖励规则(如场景真实度评分)引导模型自我优化。这种机制使生成的厨房场景中,碗碟与苹果的摆放准确率分别达到98%和86%,较同类技术提升超10个百分点。用户还可通过自然语言指令定制场景,例如要求"在餐桌上布置四个苹果和一个碗",系统能快速生成符合要求的数字环境。

场景补全功能进一步拓展了应用范围。当用户提出"用相同物体重新设计布局"时,系统能保持部分元素不变,仅调整特定区域。比如在厨房场景中,可将苹果从橱柜转移到餐桌,同时保持其他物品位置不变。这种灵活性使研究人员能高效创建大量变体场景,用于测试机器人处理不同空间配置的能力。

研究团队强调,预训练场景与目标场景的差异不会影响最终效果。通过引导策略,系统能突破原始数据分布限制,生成更符合实际需求的多样化场景。在虚拟测试中,机器人已能完成将刀叉准确放入餐具筒、在多种环境下重新摆放面包等精细操作,动作流畅度接近真实世界。

尽管当前技术仍基于固定数字资产库,但研究人员正探索生成全新物体和场景的可能性。未来计划引入可交互的关节式物体,如可开启的橱柜门、能倒出的食物罐等,以增强场景动态性。此前开发的"Scalable Real2Sim"项目积累的互联网图像库,也将为提升场景真实度提供支持。

行业专家对该技术给予高度评价。亚马逊机器人公司科学家指出,传统方法要么生成场景缺乏现实代表性,要么定制场景成本高昂,而新技术通过在现有大规模场景集上训练生成模型,结合强化学习适配特定任务,在保证物理可行性的同时实现了三维空间的精准控制。丰田研究院专家认为,该框架结合训练后优化与实时搜索的创新模式,为自动化场景生成提供了高效解决方案,特别是能生成对机器人训练至关重要的"未见场景",若能与互联网数据深度融合,将成为推动机器人实用化的关键突破。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version