滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

阿里140亿参数AI模型ABot-PhysWorld：让机器人"看懂"物理世界新突破

时间：2026-04-02 03:39:49 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能与机器人技术深度融合的今天，如何让机器人的"大脑"真正理解物理世界，成为制约技术突破的关键瓶颈。阿里巴巴AMAP CV Lab团队最新研发的ABot-PhysWorld模型，通过将物理定律深度嵌入生成式AI框架，成功解决了机器人操作视频中常见的物体穿透、重力失效等"反物理"现象，为智能机器人训练提供了革命性解决方案。

传统视频生成模型在模拟机器人操作时，往往陷入视觉逼真与物理合理性的两难困境。以OpenAI的Sora v2 Pro和Google的Veo 3.1为代表的先进系统，虽能生成流畅的操作画面，却频繁出现手部穿透物体、悬浮抓取等违背物理常识的错误。研究团队通过系统性分析发现，这类错误源于模型缺乏对质量、摩擦力、能量守恒等基础物理概念的内在理解，导致生成内容如同"漂浮在数据海洋中的幻影"。

ABot-PhysWorld的核心突破在于构建了物理规则驱动的生成框架。这个拥有140亿参数的巨型模型，采用创新的Diffusion Transformer架构，在视频生成过程中实时嵌入物理引擎检查。每生成一帧画面，系统都会验证物体运动轨迹是否符合牛顿力学、接触力是否满足材料特性、能量转换是否遵循热力学定律。这种"生成-验证-修正"的闭环机制，确保了从简单抓取到复杂装配的所有操作都严格遵循物理世界规则。

数据质量决定模型上限。研究团队从AgiBot、RoboCoin等五大开源机器人数据库中精选近300万个操作视频，构建了首个物理感知训练集。通过光流分析剔除无效片段，利用视觉-控制信号同步验证确保动作真实性，最终形成包含基础抓取、精密装配等三级任务结构的平衡数据集。这种分层抽样策略使模型既能掌握常见操作，又能理解复杂场景的物理交互逻辑。

为使AI理解"为什么"而非仅仅"是什么"，团队开发了四层级物理标注系统。从环境初始状态描述到动作轨迹解析，从物体状态变化追踪到视觉呈现总结，每个视频片段都配备详细的物理解释。Qwen3-VL 32B负责结构化信息提取，Qwen3 32B FP8完成自然语言转换，这种双模型协作确保了标注的准确性和深度。特别设计的因果关系记录模块，能精确标注碰撞力度、运动轨迹等关键物理参数。

在模型训练方面，研究团队引入直接偏好优化（DPO）机制，构建双重物理检查系统。Qwen3-VL 32B生成物理问题，Gemini 3 Pro进行链式思考分析，通过这种"提问-解答"的交互验证，模型逐步学会区分物理合理与不合理的内容。配合LoRA低秩适应技术，在140亿参数规模下实现了高效训练，使模型在保持视觉质量的同时，物理准确性提升40%以上。

动作控制模块的创新设计解决了机器人学习的"最后一公里"问题。通过将三维空间坐标、关节角度等控制参数转化为视觉化动作地图，模型能精确理解每个动作的空间定位和执行力度。并行处理分支与主干网络的融合策略，确保生成视频既符合动作指令要求，又保持自然流畅的视觉效果。这种设计使模型能适配从工业机械臂到家用服务机器人的多样化硬件平台。

实验数据显示，ABot-PhysWorld在PAI-Bench测试中取得0.8491的综合得分，物理领域得分达0.9306，创下新纪录。在零样本测试EZSbench上，该模型以0.8030的得分证明其强大的泛化能力。定性分析显示，当要求抓取绿色牛油果放入锅中时，传统模型常出现抓取错误或物理变形，而ABot-PhysWorld能准确完成整个操作序列，每个环节都符合物理常识。

这项技术突破正在重塑机器人开发流程。在工业制造领域，工程师可通过模型生成的物理准确视频预演装配流程，将试错成本降低60%以上。机器人训练周期从数月缩短至数周，新算法可在虚拟环境中完成90%的学习任务。消费级应用方面，用户通过自然语言描述需求，系统生成操作视频确认后，即可指导真实机器人执行，这种"所见即所得"的交互模式大幅提升了用户体验。

尽管取得显著进展，研究团队坦言仍面临多视角理解、计算资源优化等挑战。当前模型主要基于固定视角训练，在复杂场景中的空间推理能力有待提升。140亿参数带来的计算负荷，也限制了在边缘设备上的部署。团队正探索模型压缩技术和多模态融合方案，以期在保持性能的同时实现更广泛的应用落地。

更多>同类资讯

小米玄戒O1芯片出货超百万，未遭制裁背后：技术路径与产业博弈的平衡

04-29

俞敏洪再谈东方甄选主播离职：尊重选择，望外界给予宽松成长空间

04-29

泡泡玛特胡健：以作品之心打磨乐园短期盈利并非首要考量

04-29

小米澎湃OS开发者预览版发布基于安卓17 Beta 2 小米17等三款机型可尝鲜

04-29

中文多模态AI测评新突破：豆包登顶总榜国产模型强势领跑海外

04-29

净利润暴涨17倍背后：天齐锂业难掩周期风险，成长之路仍存隐忧

04-29

IP赋能潮玩经济：从情绪消费到全球破圈的多元探索

04-29

AI浪潮下高校专业“大换血”：从旧技能淘汰到新能力崛起

04-29

吉利银河星舰7 EV纯电版来袭续航充电双优紧凑型SUV市场添劲旅

04-29

联想拯救者向黑鲨等发起“开黑”邀约，5月19日Y70新机携大电池等亮点登场

04-29

从智驾到具身智能！地平线前高管率队，半年融资超2亿美元斩获5亿海外订单

04-29

动动嘴就能搞定3D打印、文生视频？MTT AIBOOK“龙虾”智能体开启AI新体验

04-29

擎天租获数亿元Pre-A轮融资智元控股55%加速机器人租赁布局

04-29

三星系统更新“泄密” 智能眼镜或命名为Glasses 支持快速配对等功能

04-29

开盘暴涨380%！曦智科技上市，中国光算力领跑全球

作者 / 海右出品 / ITBEAR4月28日，曦智科技正式登陆港交所，开盘暴涨380%，直接拿下全球AI硅光芯片第一股的头衔。这不是普通的上市狂欢，是上海在集成电路、AI和硅光芯片领域多年深耕的结果，也是全球算力革命里，中国企业站到前沿的关键一步。在大模型算力需求爆发的

04-29

点击查看更多 +

全站最新

港股异动丨吉利汽车拉升涨超5%，Q1核心归母净利润劲增31%

台股收跌0.55%

图解丨政治局会议定调“六网”建设

千味央厨午后闪崩触及跌停

长城证券看好珍酒李渡(6979.HK)系统性战略，给予"买入"评级

A股异动丨五粮液下探97元关口股价跌回6年前延期披露财报

热门内容

本栏最新

舒淇牵手小米SU7，科技轿跑邂逅女神魅力，车圈新热点来了

二代哈弗H9 2026款焕新登场，硬核越野与家庭舒适兼备，限时优惠17.49万起

二代哈弗H9 2026款焕新登场，限时优惠17.49万起，开启家庭越野新旅程

二代哈弗H9 2026款焕新登场，智慧舒享与硬核越野兼备，开启家庭出行新体验

二代哈弗H9 2026款上市，智慧舒心越野兼备，开启家庭出行新体验

石头P20 Max斩获奥维云网大奖，全场景清洁与自维护系统引领行业新标准

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.