谷歌DeepMind团队近日宣布,在Gemini 3 Flash模型中引入了一项名为“智能体视觉”的创新功能。这一突破性技术将传统AI被动处理图像的方式转变为动态交互模式,通过模拟人类认知过程显著提升了视觉理解能力。
传统AI模型在解析图像时通常采用单次扫描机制,这种静态处理方式在面对复杂场景时容易遗漏关键细节。例如识别芯片序列号或远处路牌时,模型往往因信息缺失而被迫进行概率性推测。新功能通过构建“思考-行动-观察”的闭环系统,使模型能够主动操作图像数据,形成可验证的推理链条。
该系统的运作机制分为三个阶段:首先在思考阶段,模型会分析用户查询和初始图像,制定包含多步骤的操作计划;随后进入行动阶段,通过生成并执行Python代码实现图像裁剪、旋转、标注等操作,或进行边界框计算等分析;最后在观察阶段,将处理后的图像数据纳入上下文窗口,为后续决策提供更丰富的信息基础。
技术测试数据显示,引入代码执行能力后,模型在多个视觉基准测试中的表现提升5-10%。在建筑图纸分析平台PlanCheckSolver.com的验证中,通过针对性裁剪屋顶边缘等高分辨率区域,模型准确率提高了5个百分点。这种改进得益于系统能够主动聚焦关键区域,而非依赖全局扫描。
在数学视觉问题处理方面,新功能展现出独特优势。面对需要多步骤推理的图表分析任务,模型不再进行概率性猜测,而是通过编写代码提取原始数据,并调用Matplotlib等专业库生成精确可视化图表。这种机制有效解决了大型语言模型在处理复杂视觉算术时常见的“幻觉”问题,确保输出结果的可靠性。
当前版本的Gemini 3 Flash已具备智能判断能力,能够自主决定何时需要放大图像细节。研究团队透露,后续迭代将进一步优化自动化水平,使模型无需用户提示即可自动执行图像旋转、视觉运算等复杂操作,持续提升人机交互的流畅度。









