谷歌DeepMind近日在机器人AI领域取得重大突破,其专为机器人设计的Gemini Robotics系列模型迎来关键升级。此次发布的Gemini Robotics 1.5与Gemini Robotics-ER 1.5形成协同系统,为机器人构建了完整的"感知-决策-执行"能力框架,标志着物理世界通用人工智能(AGI)发展迈入新阶段。
作为谷歌性能最强的视觉-语言-动作(VLA)模型,Gemini Robotics 1.5展现出独特的"思考前置"特性。该模型在执行动作前会进行逻辑推演并展示思考过程,这种类人决策机制显著提升了复杂任务的处理能力。更值得关注的是其跨机器人知识迁移能力——通过共享学习成果,不同型号的机器人无需单独训练即可掌握新技能,大幅降低了AI模型的应用门槛。
与之配合的Gemini Robotics-ER 1.5则专注于环境理解与战略规划。作为当前最先进的视觉语言模型(VLM),该系统具备三维空间感知能力,能够通过自然语言交互预判任务成功率。其独创的"工具调用"功能可原生接入谷歌搜索等外部资源,自动生成包含多步骤的操作方案。在实际应用中,机器人会先通过ER 1.5模型分析环境并检索相关信息,再将自然语言指令转化为具体动作,由1.5模型执行精准操作。
这种技术架构体现了谷歌"AI即平台"的战略转型。不同于早期自主研发机器人本体的模式,谷歌现在致力于打造机器人领域的"安卓系统",通过提供标准化AI模型服务不同厂商。机器人部门负责人卡罗琳娜·帕拉达强调,模型研发的核心在于使机器人具备"前瞻性多步思考"能力,这与英伟达黄仁勋提出的物理AI理念形成技术呼应。
行业格局正在发生深刻变化。英伟达8月推出的Jetson Thor计算平台,明确将其定位为机器人系统的"数字大脑";初创企业Figure自主研发的Helix端到端模型,实现了视觉语义到动作的直接转换;获得英伟达投资的Dyna Robotics则采用环境数据驱动的学习方式,其CEO林登·高明确表示要突破物理AGI的技术边界。这些动向表明,自研AI模型已成为通往通用机器人的核心路径。
资本市场与研究机构同步关注到这一趋势。中金公司研报指出,未来具备全栈技术能力的企业将主导"具身智能"标准的制定。当前行业重心已转向"小脑+大脑"的协同系统研发,不同企业在技术路线选择上呈现差异化特征。华泰证券分析认为,大模型技术突破引发的具身智能热潮中,AI能力将成为机器人企业的生存关键,缺乏核心算法的本体制造商可能面临淘汰压力。
从技术演进路径看,主流机构正基于大语言模型、自动驾驶模型和多模态大模型展开探索。国内华为、百度、科大讯飞等科技巨头已推出成型产品,与谷歌、OpenAI、meta等国际企业形成竞争态势。这种技术竞赛不仅加速了AGI的实现进程,更在重塑整个机器人产业的竞争格局。