谷歌近日宣布推出Gemini 2.5计算机使用模型,这是一款基于Gemini 2.5 Pro视觉理解与推理能力打造的专用工具,旨在让AI智能体具备直接操作图形用户界面(GUI)的能力,包括点击、输入文字和滚动屏幕等人类操作。
开发者现已可通过Google AI Studio和Vertex AI中的Gemini API访问该模型的公开预览版。相关文档已同步上线,开发者可参考链接了解具体使用方法。
谷歌指出,当前AI模型主要通过结构化API与软件交互,但许多日常数字任务仍需直接操作图形界面,例如填写表单、提交信息等。这类任务要求AI智能体能像人类一样浏览网页和应用程序,而原生支持表单填写、下拉菜单操作和登录后操作的能力,是构建通用型智能体的关键突破。
该模型的核心功能通过Gemini API新增的computer_use工具实现,采用循环运行机制。其工作流程分为四步:首先接收用户请求、屏幕截图和操作历史作为输入,开发者可指定排除某些操作或添加自定义函数;随后模型分析输入并生成UI操作指令,如点击或输入;客户端代码执行操作后,将新的屏幕截图和URL反馈给模型,形成持续迭代,直至任务完成或因安全、用户决策等原因终止。
技术文档显示,该模型特别针对Web浏览器环境优化,同时在移动UI控制任务中展现出潜力,但尚未适配桌面操作系统级别的深度控制。
性能测试表明,Gemini 2.5计算机使用模型在多个Web和移动控制基准测试中表现优异。在Browserbase平台的Online-Mind2Web测试中,该模型在浏览器控制质量和响应延迟方面均领先于市场主流方案。
针对AI控制计算机可能引发的安全风险,谷歌构建了多层次防护体系。模型训练阶段即融入安全功能,重点防范三类核心威胁:用户滥用、意外行为及Web环境中的提示注入攻击。开发者可通过两项安全控制工具进一步约束模型行为:逐步安全服务会在每次操作前进行独立评估,系统指令功能则允许开发者设定高风险操作(如绕过验证码、控制医疗设备)的拒绝或用户确认规则。
这些安全措施旨在帮助开发者规避系统破坏、安全威胁等高风险行为,确保AI智能体在合规框架内运行。