ITBear旗下自媒体矩阵:

谷歌DeepMind双模型架构赋能机器人:生成式AI推动从专用走向通用

   时间:2025-09-26 21:21:56 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

谷歌DeepMind公司近日在机器人技术领域取得重大进展,其最新发布的Gemini Robotics项目通过创新双模型架构,首次实现了具备"预思考"能力的机器人系统。这项突破有望打破传统机器人只能执行预设任务的局限,推动行业向通用化方向转型。

传统工业机器人长期面临高度专业化困境,每个设备都需要针对特定场景进行数月调试,且只能完成单一任务。DeepMind机器人部门主管卡罗琳娜·帕拉达指出:"当前机器人系统部署成本高昂,从安装到调试往往需要数月时间,却只能执行预先编程的简单操作。"这种技术瓶颈严重制约了机器人技术的广泛应用。

新发布的Gemini Robotics系统采用双模型协同机制,由Gemini Robotics1.5和Gemini Robotics-ER1.5两个核心模块构成。其中1.5版本作为视觉-语言-动作模型,负责将多模态输入转化为精确动作指令;ER1.5版本则承担具身推理功能,通过分析环境数据生成任务执行方案。这种架构设计实现了认知与执行的物理分离,为机器人赋予类似人类的决策能力。

具身推理模块ER1.5的创新性体现在其类ChatGPT的交互机制上。该模型通过接收视觉和文本信息,能够模拟人类思考过程生成操作步骤。在实验室测试中,当系统接到"分类洗衣物"的任务时,ER1.5不仅会分析现场图像,还能调用网络搜索验证衣物分类标准,最终输出包含抓取角度、放置位置等细节的自然语言指令。

执行模块1.5则专注于动作精度控制。该模型通过整合视觉反馈与语言指令,确保机器人手臂能准确完成分类、搬运等复杂操作。双模型配合下,系统在学术基准测试中展现出卓越的环境适应能力,能够自主处理未经过专门训练的新任务。

这种技术架构的优势在于显著提升了机器人的泛化能力。传统设备更换任务需要重新编程,而新系统通过自然语言交互即可快速适应新场景。测试数据显示,搭载双模型的机器人在面对陌生工作环境时,任务完成效率较传统设备提升40%以上。

尽管技术突破引人注目,但商业化应用仍面临多重挑战。真实环境中的动态干扰、人机协作安全标准、硬件成本控制等问题,都需要通过持续优化解决。DeepMind研发团队承认,当前系统在极端复杂场景下的稳定性仍有待提升。

行业分析师指出,这项技术为机器人发展开辟了新路径。通过将生成式AI与机器人控制深度融合,设备有望从专用工具进化为具备基础认知能力的智能体。随着算法优化和硬件升级,未来五年内或将出现能自主完成多步骤任务的通用型服务机器人。

目前,DeepMind正在与制造业、物流业展开合作测试,重点验证系统在动态环境中的可靠性。研究团队透露,下一代模型将集成更强的物理世界建模能力,使机器人能预判动作后果并自主修正策略,这或将重新定义人机协作的边界。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version