滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

中科院等联合研究：AI突破多模态智能基准测试，迈向主动探索新阶段

时间：2026-04-14 06:04:05 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

中国科学院自动化研究所联合多所国内外高校，共同推出了一项名为Agentic-MME的新型人工智能评估基准测试。这项研究突破了传统评估方式的局限，首次建立了以过程验证为核心的评估体系，为人工智能系统解决复杂现实问题提供了全新的衡量标准。研究团队通过构建包含418个真实世界任务的测试集，系统评估了AI系统在主动探索和知识整合方面的能力。

传统评估方法主要测试AI被动观察图像后回答问题的能力，类似于让学生仅通过教科书封面猜测内容。而新基准测试要求AI系统扮演双重角色：既要像考古学家一样运用放大镜、特殊灯光等13种视觉工具分析图像细节，又要像研究员一样通过搜索引擎、图片反向搜索等4种知识工具获取背景信息。这种设计使评估更接近人类解决实际问题的过程。

测试任务按复杂程度分为三个等级。初级任务要求AI完成单步视觉操作，如从超市货架照片中裁剪并放大价格标签；中级任务需要结合视觉处理和知识搜索，例如识别建筑物标识后查找其历史信息；高级任务则涉及模糊线索的假设验证循环，如通过多次图像处理和搜索确定模糊商标的真实身份。研究团队特别设计了"模型在环后向设计"方法，确保任务必须通过主动工具使用才能解决。

过程验证体系是该研究的核心创新。双轴验证机制分别检查策略执行和视觉证据：S轴审查员评估搜索策略是否合理，包括关键词选择和信息获取方式；V轴审查员验证视觉工具生成的中间结果是否包含有效信息。研究团队建立了超过2000个检查点，平均每个任务包含5个以上验证步骤，并引入"过度思考"惩罚机制，对冗余操作进行扣分。

为兼容不同AI系统，研究团队开发了统一评估框架，支持代码生成和原子工具两种交互模式。代码生成模式允许AI编写Python代码处理图像，原子工具模式则提供标准化接口调用预定义功能。框架通过抽象语法树分析技术标准化代码操作序列，自动处理图像格式、命名约定等技术细节，确保评估公平性。

实验结果显示，最先进的Gemini-3 Pro系统整体准确率仅为56.3%，在高级任务中降至33.3%，而人类专家可达93.8%。开源系统表现更差，Qwen3 VL-235B在高级任务中准确率仅10.1%。结构化工具接口普遍优于代码生成模式，但后者在复杂操作组合方面具有独特优势。AI系统常出现"行动消极"问题，约50%的错误源于不愿使用可用工具。

研究团队对失败案例进行详细分类，发现七种主要错误模式：行动消极、过度思考陷阱、不忠实工具使用等。不同难度任务呈现不同错误分布，简单任务主要是行动消极，复杂任务则更多出现搜索策略失误和工具使用不当。代码生成模式易犯工具执行错误，原子工具模式则在高层次规划方面存在问题。

为验证基准测试有效性，研究团队进行了多项控制实验。移除图像内容后AI准确率几乎为零，证明任务确实需要视觉信息；比较不同工具使用设置发现，仅用图像工具可能降低性能，仅用搜索工具改进有限，两者结合效果最佳；"神谕指导"实验显示，即使提供人工标注的中间结果，AI在高级任务上仍难达到完美表现。

该研究公开了完整数据集、评估工具和基准测试代码，为AI研究社区提供重要资源。过程验证体系表明，训练AI系统的中间推理步骤与最终答案同样重要，未来训练可能需要更多关注"如何思考"。这项工作为衡量AI多模态推理能力提供了可靠标准，指出实现真正智能需要提升规划能力、工具使用技巧和多步推理能力。

更多>同类资讯

AI假图仅退款成风：国家反诈中心上线AI内容鉴定功能

05-17

OpenAI将向马耳他公民免费提供ChatGPT Plus服务一年

05-17

FF获2500万美元新融资助力，近两月累计7000万加速机器人战略落地

05-17

远东股份携手上海交大共建研究中心共探热管理技术破解AI散热难题

05-17

河南电信“双A”融合：5G‑A赋能文旅产业，AI美好家智惠千家万户

05-17

数智浪潮下，博物馆以科技为翼拓展边界，开启文化联结新篇章

05-17

长安汽车否认与千里科技合作传闻坚定推进自研天枢智能方案落地

05-17

理想L9 Livis发布：以汽车为载体，开启具身智能时代新征程

05-17

国家人工智能应用中试基地在杭启用机器人开启国家级“技能进阶”之旅

05-17

中国光通信新飞跃！170GHz超宽带器件问世引领高速光模块与6G新时代

05-17

探访国家人工智能中试基地：看机器人如何“练就”职业技能

05-17

FF宣布获2500万美元新融资，近两月累计融资7000万美元

05-17

杭州基地启用，机器人有了国家级职业技能训练场

05-17

新加坡顶尖物理学家在超导突破后移居中国

05-17

上海引领创新！全球首颗天基光计算卫星启航太空计算新纪元开启

05-17

点击查看更多 +

全站最新

贵州移动携手多方发力，超千兆智能网开启家庭智慧生活新篇章

2026年Q2湖南腊味市场洞察：“忆腊坊”如何以传统匠心领跑行业？

油门卡死莫慌乱！掌握这一应急技巧，平安出行有保障

石家庄通合电子项目发力：聚焦高功率充电模块推动新能源产业升级

新款奔驰S级深度体验：旗舰风范依旧，V8动力与豪华体验再升级

国际家庭日见证温暖时刻！乐道L80上市，24.28万起开启家庭出行新篇章

热门内容

本栏最新

MG 07双动力轿跑首发亮相：以创新设计科技配置重塑新能源轿跑新格局

2026新能源线束加工设备怎么选？广东银钢智能凭硬核实力成行业优选

百城节油赛南昌首启，吉利中国星i-HEV智擎混动以实力书写节油新篇

比亚迪腾势品牌迎里程碑第50万台车N9闪充版下线 5月18日将上市

10-15万级插混家轿新选择！吉利银河星耀7这些亮点能否打动你？

一季度数字产业开局良好：收入利润双增，互联网业务与算力基建齐头并进

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.