谷歌基于Gemini模型打造的“任务自动化”功能正式开启Beta测试,标志着AI助手从信息检索工具向跨应用操作执行者的角色转变。这项创新技术通过模拟人类在屏幕上的交互行为,实现了无需依赖API接口的复杂流程自动化,首批覆盖外卖订餐和网约车两大高频场景。
在测试场景中,用户只需发出自然语言指令即可触发完整服务链条。当用户要求“打车去机场”时,系统会自动启动Uber应用,根据航班信息智能匹配航站楼,并在存在多个选项时主动询问确认。面对“点一杯拿铁和牛角包”的指令,AI会像真人用户一样滑动星巴克菜单,精准定位指定商品,甚至能处理需要滚动查看的隐藏选项。
为确保操作安全性,谷歌构建了双重控制机制。用户可通过实时可视化界面全程监控AI的每步操作,随时点击“接管控制”按钮中断流程。在订单提交或支付环节,系统会强制停留在确认页面,要求用户手动核实订单详情和金额后才能完成交易,有效避免因AI误操作导致的经济损失。
这种基于用户界面交互的自动化方案突破了传统API对接的局限性,使AI助手能够适配更多未开放接口的应用程序。尽管当前版本在处理动态菜单滚动和复杂选项识别时仍存在优化空间,但其展现出的跨应用操作能力已为智能设备交互开辟了新路径。随着算法持续迭代,用户有望通过单一指令串联多个服务场景,彻底改变在不同应用间频繁切换的操作模式。














