谷歌近期推出了一款名为“Gemini 2.5 计算机使用”的新型人工智能模型,该模型专注于通过浏览器与网络交互,使AI智能体能够在专为人类设计的用户界面中执行任务。这一创新旨在填补当前AI在非API依赖型系统操作中的空白,例如自动填写并提交网页表单等场景。
据介绍,该模型的核心能力源于其“视觉理解与推理”技术,能够解析用户请求并转化为具体的浏览器操作。谷歌透露,这一特性使其不仅适用于用户界面测试,还可操作那些仅面向人类用户、未开放API接口的系统。此前,谷歌已在AI Mode智能体功能和研究项目“Mariner”中验证了类似技术,例如通过AI根据食材清单自动将商品添加至购物车。
在竞争层面,谷歌此次发布恰逢OpenAI于年度开发者日推出ChatGPT新应用次日。OpenAI正持续强化其“ChatGPT智能体”功能,该功能可代理用户完成复杂任务。与此同时,Anthropic公司已于去年推出Claude AI模型的“计算机使用”版本,形成三足鼎立之势。
谷歌通过演示视频展示了新模型的实际运行效果,并特别说明视频播放速度已加速至3倍。测试数据显示,该模型在网页和移动端基准测试中表现优于现有主流方案。与竞品不同的是,谷歌明确限制模型仅在浏览器环境中运行,无法操控整个计算机系统。官方强调,当前版本“未针对桌面操作系统层级控制进行优化”,目前支持包括打开浏览器、文本输入、页面元素拖放等13种基础操作。
开发者可通过Google AI Studio和Vertex AI平台获取该模型,Browserbase平台则提供在线演示服务。用户可实时观察模型完成“玩2048游戏”或“浏览Hacker News热门话题”等任务,直观体验其与浏览器环境的交互能力。