ITBear旗下自媒体矩阵:

​打破多模型切换壁垒!谷歌将“电脑操作”原生塞进 Gemini 3.5 Flash

   时间:2026-06-25 23:30:14 来源:CHINAZ编辑:快讯 IP:北京 发表评论无障碍通道
 

谷歌 DeepMind 团队宣布了一项重大技术突破,将原生的计算机使用能力直接集成到了 Gemini 3.5 Flash 模型中。这意味着开发者现在只需通过单一模型,就能构建出在浏览器、手机和电脑桌面上自主看屏并执行操作的 AI 智能体。

此前这项能力仅作为一个独立模型提供,开发者需要在不同模型之间进行复杂的切换与上下文传递。如今实现原生集成后,AI 在执行跨平台长任务时无需再手动传递信息,极大地简化了开发流程。

告别上下文丢失,直击 Agent 可靠性痛点

谷歌团队认为,AI 智能体的核心瓶颈并不在于单个工具的极限,而在于多个工具切换时容易造成的上下文信息丢失。通过将搜索、地图和计算机操作统一在一个模型架构下,上下文得以连续流动,大幅降低了复杂任务中途失败的概率。

这种“多工具合一”的设计,就如同直接建造一座内部连通的综合建筑,省去了多栋独立建筑之间漫长且容易出错的通信过程。这种架构级别的调整,有望为代理式任务的可靠性和响应延迟带来实质性的改善。

锁定三大核心场景,筑牢多层安全防线

这项原生能力将主要应用于三大核心场景,包括需要数小时甚至数天持续操作的自动化任务、自动验证用户界面一致性的持续性软件测试,以及跨应用的知识性工作。这些场景都高度依赖于多任务之间的上下文连续性,能有效替代人类进行重复高能耗的操作。

在安全设计上,谷歌采用了包含针对性对抗训练、敏感操作企业安全护栏以及间接提示注入检测在内的多层防御策略。面对开放且不可控的真实计算机环境,这些机制将共同为企业用户构建起相对完整的安全边界。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version