ITBear旗下自媒体矩阵:

OpenAI新基准FrontierScience出炉:AI科研能力大考,距一流科学家尚远

   时间:2025-12-17 14:13:34 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能在科研领域的突破引发持续关注,OpenAI近日发布全新评测体系FrontierScience,试图通过物理、化学、生物三大基础学科的博士级难题,检验AI系统能否突破知识记忆层面,实现真正的科学推理能力。这项测试显示,当前最先进的AI模型在复杂科研场景中仍存在显著短板,距离成为独立科研主体仍有较大差距。

该评测体系包含700余道文本型题目,分为竞赛赛道与研究赛道两大模块。竞赛赛道聚焦约束条件下的精准推理,要求答案简洁明确;研究赛道则模拟真实科研场景,设置开放性问题并采用10分制评分标准。其中160道"黄金组"题目已对外开源,其余题目作为数据污染追踪保留。测试团队特别强调,所有题目均经过严格筛选,确保OpenAI自家模型无法通过预先训练数据直接作答。

在题目设计层面,科研团队展现了跨学科协作的深度。竞赛赛道与42位国际奥赛奖牌得主及国家队教练合作,累计涵盖109枚国际奖项;研究赛道则由45位活跃科研人员参与命题,覆盖量子电动力学、合成有机化学、进化生物学等前沿领域。这种设计使得评测体系既具备专业深度,又能反映真实科研场景的复杂性。

评测结果显示,GPT-5.2在竞赛赛道取得77%的准确率,研究赛道得分25%,综合表现领先其他模型。Gemini 3 Pro以76%的竞赛成绩紧随其后。但深入分析错误类型发现,AI系统普遍存在推理逻辑漏洞、冷门概念混淆、计算过程失误等问题。值得注意的是,当模型被赋予更长的思考时间时,准确率呈现明显提升趋势,这为后续优化提供了重要方向。

OpenAI坦言当前评测体系的局限性:标准化题目设计虽能提升评估效率,但难以完全还原科研工作的动态过程。特别是对于假设生成能力、多模态数据处理、实验系统交互等关键科研环节,现有评测尚未形成有效覆盖。研究团队正在开发迭代版本,计划纳入更多真实世界评估指标,重点观察AI系统对科研效率的实际提升作用。

这项研究引发学界对AI科研定位的深入思考。尽管AI已在国际数学奥林匹克竞赛等标准化测试中达到金牌水平,但科研创新需要突破既有知识框架的能力。当前AI系统更擅长在已知领域进行高效推理,而在提出全新假设、设计原创实验方案等创造性环节仍依赖人类指导。如何让AI系统从"解题高手"进化为"问题发现者",将成为下一阶段技术突破的关键方向。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version