谷歌DeepMind团队近日宣布,其最新研发的Gemini 3.5 Flash模型实现了重大技术升级——将原生计算机操作能力直接整合至模型架构中。这一突破使开发者能够通过单一模型构建具备跨平台自主交互能力的AI智能体,覆盖浏览器、移动端和桌面系统的屏幕感知与任务执行需求,无需在多个独立模型间进行复杂的上下文切换与信息传递。
此前,开发者在构建跨平台AI应用时,需依赖多个独立模型协同工作,不同模型间的上下文传递往往导致信息丢失或任务中断。新架构通过将搜索、地图导航和计算机操作等工具统一整合,实现了上下文信息的连续流动。谷歌团队比喻称,这种设计如同将分散的独立建筑整合为内部连通的综合体,消除了跨系统通信中的延迟与错误风险,显著提升了复杂任务的完成率。
该技术升级主要针对三大应用场景:一是需要持续数小时甚至数天的自动化任务,如跨平台数据同步或批量操作;二是持续性软件测试,通过自动验证用户界面一致性提升测试效率;三是跨应用的知识整合工作,例如从多个文档中提取信息并生成报告。这些场景均依赖多任务间的上下文连贯性,新模型可有效替代人工完成重复性高、能耗大的操作流程。
在安全防护方面,谷歌构建了多层级防御体系。技术层面采用针对性对抗训练增强模型鲁棒性,通过敏感操作企业安全护栏限制高危指令执行,并部署间接提示注入检测机制实时拦截异常请求。针对开放计算机环境的不可控性,这些措施共同形成了覆盖数据流、操作权限和输入验证的完整安全边界,为企业用户提供可靠保障。








