ITBear旗下自媒体矩阵:

中国信通院推出“方升”3.0基准测试,助力AI评测升级与行业创新发展

   时间:2025-10-10 00:31:34 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

中国信息通信研究院(以下简称“信通院”)近日宣布,其自主研发的“方升”人工智能基准测试体系已完成3.0版本升级,标志着我国AI评测能力迈入新阶段。此次升级不仅扩展了基础测试维度,更首次将全模态理解、长期记忆等十项高级智能能力纳入评测范围,为工业制造、金融科技、基础研究等领域提供了更具针对性的评估框架。

据介绍,3.0版本在原有评测体系基础上新增了模型底层特征评估模块,涵盖参数规模、推理效率等核心指标。针对未来AI发展方向,体系特别设计了高级智能测试单元,重点考察模型在复杂场景下的多模态交互、自主决策等能力。信通院相关负责人表示,这种分层设计既能反映当前技术水平,又能为前沿研究提供方向指引。

为保障评测结果的权威性,信通院同步推进了三大基础设施建设项目。首先是测试数据资源扩容,计划新增300万条涵盖多语言、多任务的标准化数据,以满足不同场景下的评测需求。其次是测试方法创新,重点攻关高质量数据合成、动态质量评估等关键技术。第三是构建智能评测基座,通过引入多智能体交互仿真环境,实现对复杂系统协同能力的精准评估。

在最新完成的季度评测中,141个大模型和7个智能体接受了全面检验。测试覆盖基础认知、逻辑推理、代码生成、多模态理解四大维度。结果显示,OpenAI的GPT-5在综合性能上保持领先,但国内模型表现可圈可点——阿里巴巴的Qwen3-Max-Preview和月之暗面的Kimi K2在特定场景下已接近国际先进水平。值得注意的是,多模态模型在图像识别领域取得突破,但在需要多步骤推理的任务中仍存在提升空间。

代码应用能力专项测试暴露出行业共性问题。虽然参评模型在简单函数实现上表现优异,但在真实项目开发中的架构设计、错误处理等方面明显不足。专家指出,这反映出当前AI工具从实验室到产业应用的转化过程中,仍需突破工程化能力瓶颈。

随着评测体系持续完善,信通院已建立双月评测机制,定期发布技术分析报告。相关负责人透露,下一步将重点加强评测标准国际化建设,通过与全球研究机构合作,推动中国AI评测体系获得更广泛的国际认可,为技术创新和产业升级提供有力支撑。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version