谷歌旗下人工智能助手Gemini正酝酿一项重大升级,其内部代号为Spark的智能体功能逐渐浮出水面。根据多方爆料,这一功能将突破传统问答模式,转而具备主动执行任务的能力,成为用户数字生活中的"代理助手"。目前该功能处于早期测试阶段,但已展现出跨应用操作、自动化流程处理等突破性特性。
技术细节显示,Spark将深度集成于Android版Gemini应用中。用户通过启动器左上角的三横线菜单即可开启该功能,首次使用时将看到功能介绍页面。据测试者透露,Spark的核心能力包括自动清理Gmail垃圾邮件、会前智能整理笔记、生成个性化新闻摘要等基础场景,这些功能已通过内部截图得到证实。
更值得关注的是其高级自动化功能。爆料者展示的截图表明,用户可创建自定义技能模板,通过设定固定指令框架并输入变量参数,实现重复性任务的批量处理。这种设计逻辑与Claude的Projects功能异曲同工,但Gemini团队显然希望构建更开放的生态系统。测试版本已支持调用谷歌Workspace全家桶应用,未来可能扩展至第三方服务。
多步骤工作流处理是Spark的另一技术亮点。系统可同时索引多个应用的数据源,构建跨平台的自动化链条。例如在规划旅行时,能自动整合日历、邮箱、地图等应用信息生成行程方案。特别引人注目的是"无监督运行"模式,用户授权后Spark可独立完成任务并直接交付结果,无需人工确认每个步骤。
桌面端控制能力方面,Spark展现出独特的进化路径。虽然暂时无法像OpenClaw那样实现整机操控,但已具备代理操作Chrome浏览器和访问设备文件系统的权限。这意味着用户可授权其自动填写网页表单、管理云存储文件等操作。技术分析指出,这种有限授权模式既保障安全性,又为后续功能扩展留下空间。
据参与测试的人员透露,Spark可能采用模块化AI架构,针对不同任务场景调用专属模型。例如文本处理使用Gemini Pro,图像识别则切换至Imagen模型,这种设计有助于提升特定任务的执行效率。不过谷歌官方尚未确认技术实现细节,当前披露的信息均来自非官方渠道的泄露内容。







