滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

上交大等团队发布PRL-BENCH：AI挑战物理研究，真实能力边界在哪？

时间：2026-04-27 22:22:03 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当人工智能（AI）开始挑战诺贝尔奖级别的物理难题，结果会怎样？上海交通大学联合多家科研机构设计了一套名为PRL-BENCH的测试题，直接从物理学顶尖期刊《物理评论快报》的最新论文中选取真实研究问题，要求AI像物理学家一样自主规划解题路径。这场测试吸引了全球六个顶尖AI模型参与，最终成绩却显示：最强的AI仅得44分，连及格线都未达到。

传统AI测试题多采用“奥林匹克竞赛”模式，题目有明确出发点、固定解题路径和唯一答案，类似“按食谱做菜”。但真实物理研究更像“在陌生厨房做一道让人精神振奋的菜”，需自主选择食材、方法和火候。现有测试无法评估AI的自主探索能力，而PRL-BENCH的诞生正是为了填补这一空白。它要求AI完成多步骤、长链条的研究任务，从理论框架选择到数值计算，全程自主规划。

研究团队从《物理评论快报》2025年8月至2026年3月的论文中精选100篇，覆盖天体物理、凝聚态物理、高能物理、量子信息与基础物理、统计物理与复杂系统五大方向。题目设计模拟真实科研任务，包含研究动机、核心任务、答案与评分标准、详细解答四部分。每道大题由多个独立小问题组成，前一问错误不会导致后续全盘崩溃，更贴近科研实际。例如，一道关于格规范理论的题目要求计算基态能量导数、判断对称性关系、模拟实时动力学演化等，答案精度要求到小数点后多位，确保评判客观性。

参与测试的六支AI队伍包括GPT-5.4、Gemini-3.1-Pro、Claude-Opus-4.6等当前最强模型。每道题每个模型独立作答五次取平均分，允许使用代码解释器但禁用网络检索工具，评分由GPT-5担任“裁判”。结果显示，Gemini-3.1-Pro以44.27分夺冠，Qwen-3.5-Plus以40.05分紧随其后，其余模型得分在33至38分之间。所有模型均未及格，且差距不大，反映当前AI技术普遍面临瓶颈。

从细分领域看，多数模型在天体物理和统计物理方向得分较低。研究团队分析，这两个领域问题异质化强、缺乏标准化套路，AI训练数据覆盖较少。错误类型统计显示，“公式或概念错误”占比最高，达45%至55%，AI常在第一步选错理论框架；其次是“推导错误”和“计算错误”，分别占8%至23%和20%至30%；Claude-Opus-4.6则因“不完整”类错误占比63.93%而表现异常，其推理链条常因反复自我纠正而崩溃。

这场测试暴露了AI在真实物理研究中的四大短板：领域知识深度不足，难以可靠选择理论框架；推导稳定性差，多步骤符号推理易引入错误；数值计算可靠性低，代数运算和数值计算存在明显错误率；长时程任务适应能力欠缺，缺乏全局战略规划能力。例如，凝聚态物理领域中，AI常套用不适用理论框架；高能物理方向推导错误率显著高于其他领域；部分模型在复杂任务中因上下文管理不足而回答不完整。

尽管当前AI表现不佳，但PRL-BENCH的价值在于精准定位了能力差距。研究团队指出，AI在“选对理论框架”环节失败率超半数，长时程任务全局规划能力最薄弱，这些发现为未来训练指明了方向。例如，可针对理论框架选择设计专项训练，强化多步骤推理的稳定性，提升数值计算可靠性，并培养AI在复杂任务中的全局规划能力。

对于科学界而言，这场测试的意义在于厘清AI的边界。过高期待可能导致关键科研任务被错误交付，低估潜力则可能错过有价值的应用场景。PRL-BENCH的数据集已在Hugging Face平台公开，完整论文可通过arXiv编号2604.15411查阅。这场AI与物理难题的较量，不仅是一次能力检验，更是一份指引未来研究的“路线图”。

更多>同类资讯

让AI学会“认真看图”：V-GIFT方法为视觉理解注入新活力

04-27

五所高校联合攻克AI持续学习难题：最优传输理论助力对抗遗忘

04-27

艺术与科技共舞：机器人演绎经典，AI时代艺术教育如何破局新生？

04-27

GPT-5.5发布：长上下文质变，定价翻倍下中国开发者的机遇与挑战

国产模型在编程能力上正在逼近，DeepSeekV3.2、Qwen3.6在LMArena编程榜单上已经跻身前十；但在复杂推理、顶层科研场景上，FrontierMath Tier 4国产最优解尚不在同一量级，但…

04-27

AI安全风险受瞩目多家企业主动为高能力模型设置访问门槛

《参考消息》4月27日刊发文章《“太危险而不宜向公众开放”AI企业为最强模型设限渐成趋势》。该模型在化学、生物学任务及实验设计方面的表现，显著优于当前公开可用的模型。 Anthropic与OpenAI对近…

04-27

郭明錤爆料：OpenAI携手高通联发科研发手机芯片 2028年或迎量产新篇

04-27

MiniMax港股表现低迷：大跌14% 市值较峰值缩水半数

04-27

联发科北京车展亮剑：3nm座舱芯片引领AI汽车新潮流，2nm芯片蓄势待发

04-27

最高法院定音：露韦美恶意诉讼宇树科技败诉赔偿8万并担诉讼费

04-27

脉脉CEO林凡谈ChatGPT Images2.0：互联网信任受冲击，实名社交曙光初现

04-27

高德专车全面升级，“AI专车管家”全流程融入，打造出行新体验

04-27

离开独角兽后创业，许华哲：家庭机器人是未来，智能争夺战已打响

我创业这事，跟我爸妈聊，他们肯定是说支持，但你要不创业也不错，因为在他们的视角里，在清华只做教书这一件事，对他们来说也足够好，甚至会是更好的选择。不是别人做了一个什么，我们要立刻有别人有的这个东西；别人做了…

04-27

千诀科技：类脑智能突破“缸中之脑”想象，重塑机器人未来生态

核心原因是，L2场景下的数据能够持续回流、反哺模型，而那些直奔L4的端到端方案，恰恰因为数据量达到及格线的门槛太高，在起步阶段就耗尽了弹药。他总结道，“工业场景要求太高了，既要节拍又要精度，你用模型做最后会…

04-27

泳池热泵老玩家菲亚兰德跨界逐浪泳池机器人“第一股”花落谁家？

一方面，泳池机器人比热泵、水泵更容易讲出增长故事；另一方面，泳池机器人则更接近消费电子和智能硬件，既有更新换代，也有品牌溢价，还能和“庭院智能化”“机器人出海”这些资本市场关键词挂钩。只不过，从泳池热泵、…

04-27

灵光App上线新功能：上传图片或输入指令即可开启“体验世界模型”之旅

04-27

点击查看更多 +

全站最新

东风奕派双车齐发：奕派M8携华为技术亮相，纳米01 Cross以8.38万开启纯电新体验

图解丨南下资金加仓中芯国际、中国移动，减持阿里和腾讯

韩国、中国台湾、日本三地股市收盘齐创历史新高

史诗级暴涨中，知名大空头紧急出手！

沃什入主美联储板上钉钉？鲍威尔将迎终极大考！

台股涨超3%，首次突破4万点，再创历史新高

热门内容

本栏最新

黄鹤之星领航班走进华为：共话数智未来，携手开启企业转型新篇章

元戎首席科学家阮翀首秀：基座模型破局智驾困境，驱动组织AI变革

海康存储北京车展秀实力：多款车载新品亮相，赋能汽车智能化新未来

国家超算互联网限时免费开放DeepSeek-V4对话开启百万上下文普惠新篇

欣旺达北京车展秀实力：“欣星环”电池发布，“能量家生活馆”引领新能源生活

吉利第5代帝豪i-HEV智擎混动北京车展首秀动力节能安全全面升级

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.