在智能驾驶技术的最新进展中,理想汽车CEO李想在近期的AI Talk上宣布了一个引人注目的方向——VLA(Vision-Language-Action,视觉语言动作)模型。这一技术概念,最早由谷歌Deepmind提出,并迅速在具身智能领域崭露头角,成为与“端到端”技术并列的新趋势。
VLA模型与ChatGPT、Sora等视觉语言模型(VLM)的主要区别在于,它不仅具备理解和解释环境的能力,还能直接输出控制指令,如指挥机器人动作或驾驶决策。这种将理解与行动结合的能力,使得智能驾驶和具身智能两大领域有了更紧密的结合。
尽管VLA模型的技术实现和工程落地仍处于早期阶段,但已经吸引了众多科技巨头的关注和实践,包括Open AI和字节跳动等。而在国内,一个由小米汽车智驾技术负责人刘方创立的具身机器人项目——阿米奥机器人,也在积极探索这一技术路径。
阿米奥机器人成立于2024年,专注于将VLA模型应用于3C消费电子领域的机器人柔性生产。刘方表示,传统的自动化产线部署成本高、周期长,而基于VLA模型的通用机器人则能快速适应不同的生产任务,提高生产效率和灵活性。
刘方强调,GPT等大模型的出现为AI技术的发展带来了革命性的变化。通过大数据喂养和模仿学习,AI模型能够产生智能,并理解人类知识。这种能力使得具身智能的实现成为可能,而VLA模型则是实现具身智能的关键。
在阿米奥机器人的探索中,VLA模型的应用不仅限于生产线的自动化,还包括对机器人的强化学习训练。刘方指出,强化学习是一种通过奖励机制优化AI行为的策略,它能够在VLA模型的基础上进一步提升机器人的性能和适应性。
然而,自动驾驶领域的强化学习面临更大的挑战。由于自动驾驶涉及复杂的交通环境和竞争对手的反应,因此需要更加精确和全面的模拟环境进行训练。刘方认为,世界模型仿真器是解决这一问题的关键,但它需要与驾驶模型一起迭代优化。
对于VLA模型的未来发展,刘方表示仍处于创新迷茫阶段,各家公司的实现路径不尽相同。但他相信,随着技术的不断进步和应用的深入探索,VLA模型将在智能驾驶和具身智能领域发挥越来越重要的作用。
阿米奥机器人目前已经在与北京大学搭建联合实验室,共同推进VLA基座模型的研究和开发。同时,阿米奥机器人也在工厂进行数据采集和模型训练,计划在今年三四季度实现一条大的通用机器人产线整体落地。
在谈及为何选择消费电子产线机器人领域创业而非自动驾驶时,刘方表示,他更看重具身智能的长期发展潜力。他认为,如果VLA模型能够成功应用于机器人领域,那么自动驾驶将成为一个相对低维度的问题。
刘方还分享了阿米奥机器人在商业模型上的思考。他表示,代工机器人的成本包括实体机器人的固定资产和算法模型的前期投入。虽然初期投入较大,但机器人可以三班倒工作,替换人力成本,从而实现盈利。
在阿米奥机器人的探索中,VLA模型的应用不仅提高了生产效率,还为机器人带来了更强的学习能力和适应能力。这种能力使得机器人能够快速适应不同的生产任务,为3C消费电子领域的柔性生产提供了新的解决方案。
随着技术的不断进步和应用的深入探索,阿米奥机器人有望在未来的市场竞争中占据领先地位。同时,VLA模型的发展也将为智能驾驶和具身智能领域带来更多的创新和突破。