家用人形机器人NEO再次成为科技圈焦点。这款曾因穿着Lululemon紧身衣引发讨论的机器人,如今凭借全新升级的"大脑"系统引发关注。研发团队宣称,NEO已突破传统远程操控模式,通过自主构建的1X World Model(1XWM)实现了认知层面的重大突破。
核心技术突破体现在机器人对物理世界的理解方式上。传统机器人需要数万小时的实操数据才能掌握基础技能,而NEO通过分析海量网络视频和人类第一视角操作录像,构建起对重力、空间关系等物理规律的认知。这种学习模式类似人类通过观察积累经验,使机器人能理解"物体掉落会下落"等基础物理现象。
系统运行机制呈现创新特征。当接收到操作指令时,机器人会先在内部生成完成任务的虚拟视频,再通过逆运算推导出具体动作序列。这种"先想象后执行"的模式,使机器人能处理从未接触过的任务类型。研发团队坦言,目前仍存在"想象完美但执行偏差"的情况,表现为虚拟演示与实际操作存在细微差距。
技术架构包含两个核心模块。140亿参数的视频生成主干模型,经过三阶段训练:首先在互联网视频数据中学习基础物理规律,接着通过900小时人类第一视角视频掌握操作模式,最后用70小时机器人数据适配具体形态。逆动力学模型则负责将虚拟画面转化为实际动作,通过400小时无标注机器人数据训练,确保动作追踪的精准度。
实验数据显示显著进步。在抓取测试中,机器人能处理训练数据中未出现的物体;清洁等新任务完成度达到预期水平;双手协调操作等复杂动作,通过迁移人类视频数据中的经验得以实现。研究特别指出,第一视角训练数据和详细字幕标注对提升任务成功率至关重要,这类数据为机器人提供了可迁移的操作先验。
当前系统仍存在局限性。精细操作如液体倾倒、绘图等任务的完成率有待提高,虚拟视频质量与实际成功率存在正相关。研发团队采用多视频并行生成策略,通过视觉评估模型选择最优方案,使任务成功率获得提升。这种优化方式暗示,未来可能通过改进视频生成质量来突破操作瓶颈。
技术文档详细披露了训练数据构成。后训练阶段主要使用高质量抓取数据(占比98.5%),聚焦桌面操作场景。通过基础模型的迁移学习能力,系统展现出对未见物体和环境的适应力。测试环节设置分布内/外任务场景,验证了模型在复杂环境中的稳定性,但特定精细动作仍需针对性优化。
这项突破标志着机器人控制范式的转变。从依赖静态图像分析的传统模式,转向通过动态视频理解物理世界,使机器人能直接受益于互联网规模数据的训练成果。研发团队强调,这种转变需要配套的硬件系统支持,特别是将人类具身经验迁移到机器人形态的技术架构。
完整技术说明已通过官方渠道发布,详细阐述了世界模型的构建方法、训练策略及评估体系。文档特别指出,第一视角人类操作数据与机器人数据的协同训练,是提升系统泛化能力的关键因素。这种数据融合方式,为开发通用型家庭机器人提供了新的技术路径。











