ITBear旗下自媒体矩阵:

上海AI实验室打造ATLAS平台:为AI科学推理能力设“高难度考场”

   时间:2026-01-20 05:24:30 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

上海AI实验室联合25所高校科研团队,推出了一款名为ATLAS的科学推理评测平台,旨在为人工智能模型构建一个高难度测试体系。该平台涵盖数学、物理、化学、生物、计算机科学、地球科学和材料科学七大基础学科,通过约800道原创题目检验AI模型的真实科学推理能力。与传统测试平台不同,ATLAS要求AI模型完成复杂的多步骤推理,并给出详细的解题过程,而非简单的选择题答案。

研究团队发现,现有AI评测体系存在显著局限性。以MMLU测试为例,顶级模型在该基准上的准确率已超过90%,但其题目设计难以区分不同模型的能力差异。MATH数据集的演变更凸显这一问题:2021年最强模型得分不足10%,而三年后同类模型得分飙升至90%以上。这种进步更多反映模型对训练数据的记忆能力,而非真正的推理能力提升。数据污染、学科覆盖单一、答案格式简化等问题,导致现有测试无法准确评估AI的科学研究潜力。

ATLAS平台通过四项核心设计原则构建测试体系。所有题目均由博士级专家全新创作,经检索系统确认未被任何AI训练集收录。题目设计强调跨学科融合,例如要求同时运用热力学定律和微分方程解决材料科学问题。答案格式采用高保真标准,接受LaTeX格式的复杂数学表达式,并要求详细展示推理链条。平台通过预测试筛选题目,确保最终入选题目的平均通过率低于20%,维持测试的前沿挑战性。

质量控制体系贯穿题目开发全流程。专家团队首先完成题目创作与初步筛选,随后进入自动化预审阶段,系统检查题目格式与重复率。对抗性测试环节让当前最优模型反复尝试解题,只有准确率持续低于40%的题目才能通过。多层级人工评议采用双盲制度,由三位匿名专家从科学价值、难度等级、表述清晰度三个维度评分。最终答案需经过AI辅助的精炼优化,并接受事实准确性与逻辑一致性验证。整个筛选过程的淘汰率超过70%,确保测试题库的高质量标准。

测试内容分布反映现代科学研究趋势。计算推导类题目占比71.4%,要求AI完成从基础运算到复杂系统建模的任务。选择判断类(12.2%)与解释描述类(10.2%)题目考察知识掌握与表达能力,结构复合类(6.1%)则融合多种能力要求。跨学科题目占比显著,例如生物化学题目需结合反应机理与系统调节知识,材料物理题目涉及量子力学与电学性质的关联分析。题目平均字数达65词,复杂场景描述超过200词,50%以上题目采用复合问题设计,考验AI的长程推理能力。

评估系统采用创新的AI互评机制。OpenAI o4-mini与GPT-OSS-120B担任评判官,通过四阶段流程处理答案:首先提取JSON格式的核心内容,随后进行科学含义比对而非简单文本匹配。例如在算法复杂度分析中,系统能识别"log n"与"ln n"在渐近表示中的等价性。数值计算题目评估显示,AI评判官可准确识别160N与1.6×10²N的相同答案,但在描述性问题的主观判断上仍存在差异。答案提取成功率分析表明,先进模型能较好控制输出长度,JSON解析错误率接近零。

实际测试结果引发行业深思。表现最优的OpenAI GPT-5-High准确率为42.9%,Gemini-2.5-Pro与Grok-4分别取得35.3%和34.1%的成绩。错误类型分析显示,27%的失误源于数值计算错误,16.5%涉及数学表达式错误,13%为关键推理步骤缺失。跨学科题目成为普遍难点,所有模型在需要知识整合的题目上表现显著下降。输出长度限制实验表明,将token数从32k增至64k仅带来有限提升,凸显推理能力本身的局限性。

该平台已规划长期发展路径。研究团队将建立开放协作机制,邀请全球科研人员参与题库建设,通过严格审核流程维持质量标准。持续更新机制确保测试内容紧跟科学前沿,定期淘汰失效题目并补充新挑战。学科覆盖将扩展至神经科学、药学等领域,任务格式拟增加假设生成、实验设计等真实科研场景。技术基础设施升级包括智能题目管理系统与更精准的评估算法,同时探索将优质题目转化为科学教育资源的可能性。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version