ITBear旗下自媒体矩阵:

中科院等联合研究:AI突破多模态智能基准测试,迈向主动探索新阶段

   时间:2026-04-14 06:04:05 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

中国科学院自动化研究所联合多所国内外高校,共同推出了一项名为Agentic-MME的新型人工智能评估基准测试。这项研究突破了传统评估方式的局限,首次建立了以过程验证为核心的评估体系,为人工智能系统解决复杂现实问题提供了全新的衡量标准。研究团队通过构建包含418个真实世界任务的测试集,系统评估了AI系统在主动探索和知识整合方面的能力。

传统评估方法主要测试AI被动观察图像后回答问题的能力,类似于让学生仅通过教科书封面猜测内容。而新基准测试要求AI系统扮演双重角色:既要像考古学家一样运用放大镜、特殊灯光等13种视觉工具分析图像细节,又要像研究员一样通过搜索引擎、图片反向搜索等4种知识工具获取背景信息。这种设计使评估更接近人类解决实际问题的过程。

测试任务按复杂程度分为三个等级。初级任务要求AI完成单步视觉操作,如从超市货架照片中裁剪并放大价格标签;中级任务需要结合视觉处理和知识搜索,例如识别建筑物标识后查找其历史信息;高级任务则涉及模糊线索的假设验证循环,如通过多次图像处理和搜索确定模糊商标的真实身份。研究团队特别设计了"模型在环后向设计"方法,确保任务必须通过主动工具使用才能解决。

过程验证体系是该研究的核心创新。双轴验证机制分别检查策略执行和视觉证据:S轴审查员评估搜索策略是否合理,包括关键词选择和信息获取方式;V轴审查员验证视觉工具生成的中间结果是否包含有效信息。研究团队建立了超过2000个检查点,平均每个任务包含5个以上验证步骤,并引入"过度思考"惩罚机制,对冗余操作进行扣分。

为兼容不同AI系统,研究团队开发了统一评估框架,支持代码生成和原子工具两种交互模式。代码生成模式允许AI编写Python代码处理图像,原子工具模式则提供标准化接口调用预定义功能。框架通过抽象语法树分析技术标准化代码操作序列,自动处理图像格式、命名约定等技术细节,确保评估公平性。

实验结果显示,最先进的Gemini-3 Pro系统整体准确率仅为56.3%,在高级任务中降至33.3%,而人类专家可达93.8%。开源系统表现更差,Qwen3 VL-235B在高级任务中准确率仅10.1%。结构化工具接口普遍优于代码生成模式,但后者在复杂操作组合方面具有独特优势。AI系统常出现"行动消极"问题,约50%的错误源于不愿使用可用工具。

研究团队对失败案例进行详细分类,发现七种主要错误模式:行动消极、过度思考陷阱、不忠实工具使用等。不同难度任务呈现不同错误分布,简单任务主要是行动消极,复杂任务则更多出现搜索策略失误和工具使用不当。代码生成模式易犯工具执行错误,原子工具模式则在高层次规划方面存在问题。

为验证基准测试有效性,研究团队进行了多项控制实验。移除图像内容后AI准确率几乎为零,证明任务确实需要视觉信息;比较不同工具使用设置发现,仅用图像工具可能降低性能,仅用搜索工具改进有限,两者结合效果最佳;"神谕指导"实验显示,即使提供人工标注的中间结果,AI在高级任务上仍难达到完美表现。

该研究公开了完整数据集、评估工具和基准测试代码,为AI研究社区提供重要资源。过程验证体系表明,训练AI系统的中间推理步骤与最终答案同样重要,未来训练可能需要更多关注"如何思考"。这项工作为衡量AI多模态推理能力提供了可靠标准,指出实现真正智能需要提升规划能力、工具使用技巧和多步推理能力。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version