ITBear旗下自媒体矩阵:

具身智能开源模型风起云涌,中美同步发力,机器人GPT-3时刻何时全面到来?

   时间:2025-09-12 16:30:49 来源:钛媒体APP编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在人工智能与机器人技术的交叉领域,具身智能正成为全球科技界关注的焦点。作为这一领域的核心,机器人大模型如同“中枢大脑”,使机器人能够在复杂环境中自主学习并持续进化。当前,大模型研发已成为推动机器人产业突破的关键环节,尤其是通用型机器人的发展。

近期,中美两国在具身智能领域展开了一场“开源竞赛”。9月8日,中国公司自变量机器人发布了其具身模型WALL-OSS;次日,美国公司Physical Intelligence(简称PI)也开源了π₀.₅模型。这一时间上的巧合,标志着2025年具身大模型开源生态进入快速发展阶段。这种态势让人联想到语言大模型的演进路径——从2018年开源社区的初步兴起,到2020年ChatGPT-3引发全球关注,语言大模型用了三年时间走向成熟。如今,机器人大模型距离其“GPT-3时刻”还有多远?

在探讨机器人模型领域的突破时,PI研究员柯丽一鸣(Kay Ke)指出,机器人大模型的“通用性”验证是近年来的重要进展。过去,一套系统往往只能解决特定场景下的任务,难以低成本复制到新场景。而如今,模型的泛化能力成为研究重点,这使得机器人大模型的可能性大大增加。自变量机器人CTO王昊则提到,2023年前,行业多专注于单个任务的极致优化;而随着通用机器人基础模型的发展,机器人能够同时学习并执行成百上千种任务,重心转向提升模型在所有任务上的平均成功率。

以叠衣服任务为例,这一在机器人领域研究了十几年的任务,因其复杂性和序列性,过去难以解决。柯丽一鸣表示,到了2025年,π₀.₅模型在泛化能力上取得了显著进展。例如,将模型放入未见过的家庭环境中,机器人仍能完成抓取等任务,展现出类似人类的特性。王昊也提到,自变量机器人的模型在家庭场景中,能够完成收拾餐桌、布置餐具等长程任务,这些任务包含多种子任务,需要模型端到端自主决策和实时规划。

然而,机器人模型的研发仍面临诸多挑战。王昊指出,物理世界中的长尾效应和鲁棒性是难点之一。例如,环境光照变化可能引发视觉误差,而现实世界中的可能性太多,无法预测所有极端情况。长程任务中的微小物理扰动可能导致误差滚雪球式放大,最终导致任务失败。柯丽一鸣则提到,测试机器人模型的表现缺乏统一评价机制,这使得业界难以客观比较不同模型的优劣。

数据质量和数量也是关键挑战。柯丽一鸣表示,即使到2025年,高质量数据与大规模数据仍难以兼得。王昊则提到,机器人真实数据的采集受限于硬件场地和操作员速度,成本较高。为此,行业开始探索合成数据和人类视频数据的应用。例如,自变量机器人利用生成模型缓解视觉与现实的分布差异问题,而PI在π₀.₅训练中引入了网络数据,以增强模型的通用性。

在模型架构方面,王昊认为,数据驱动的端到端模型搭建是关键。自变量机器人的WALL-OSS模型基于统一框架,具备视觉理解、空间推理和多语言指令遵循能力,同时动作生成精度较高。柯丽一鸣则表示,PI目前对模型架构持开放态度,数据驱动的算法是核心,但具体设计仍在探索中。

开源成为推动行业发展的重要力量。柯丽一鸣提到,开源能够降低研究门槛,促进社区繁荣。王昊也认为,开源意味着可以站在巨人的肩膀上前进,社区开发者的反馈有助于技术路线优化。自变量机器人和PI的开源模型,均希望为行业提供基础框架,推动长程任务和复杂任务的解决。

在商业化方面,王昊提到,自变量机器人采取“上下结合、双轨并行”的策略,既考虑通用场景的迭代,也探索商业化路径。例如,公共服务、养老服务等场景与通用机器人的最终应用场景接近,能够提供宝贵的数据反馈。柯丽一鸣则认为,扫地机器人的商业化模式值得借鉴——早期产品不完美,但用户明确其能力边界,仍能成为有用产品。

对于家用机器人的落地时间,王昊预测,两三年内机器人可在半结构化环境中完成简单任务,五年内有望进入家庭,但需允许与人协作。柯丽一鸣则保守估计,5至10年内可实现商业化产品,偶尔出错但仍在用户可接受范围内。随着模型水平提升和硬件成本降低,家用机器人的市场接受度有望显著提高。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version