滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

Gemini 3强势出圈！数学物理基准测试登顶，陶哲轩十分钟助力破难题

时间：2025-11-24 08:42:35 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

人工智能领域迎来重大突破，Gemini 3在数学与物理两大顶尖基准测试中连续登顶，引发全球科技界高度关注。这款新型大模型不仅在传统测试中表现卓越，更在实际科研场景中展现出强大实力，标志着人工智能向专业科研领域迈出关键一步。

在数学研究领域，Gemini 3创造了令人瞩目的成绩。知名研究机构Epoch AI最新发布的FrontierMath基准测试结果显示，该模型在Tier 1-3难度级别中达到38%的准确率，Tier 4极端难题级别取得19%的突破性表现。综合多项指标的Epoch能力指数（ECI）评分中，Gemini 3 Pro以154分超越此前保持纪录的GPT-5.1，确立了新的行业标杆。

FrontierMath基准测试由全球五十余位职业数学家联合设计，包含350道原创数学难题，覆盖数论、代数几何、范畴论等现代数学核心分支。测试题目难度跨越本科高年级到前沿研究水平，其中50道极端难题接近数学研究最前沿。测试要求模型提交可运行的Python函数进行自动化验证，这种设计确保了评估结果的客观性和可重复性。

实际应用场景中，Gemini 3的科研辅助能力得到顶级数学家验证。数学大师陶哲轩公开分享了使用Gemini DeepThink模式解决埃尔德什难题#367的经历。面对这个困扰学界多年的组合数学难题，模型仅用十分钟就完成了关键证明步骤，较传统研究方法效率提升数十倍。陶哲轩特别指出，这次合作标志着人类数学家与AI工具的协作模式进入新阶段。

物理研究领域同样传来捷报。在专门针对前沿物理问题设计的CritPt基准测试中，Gemini 3 Pro再次展现统治力。这项由三十多家科研机构联合开发的测试，包含凝聚态物理、量子力学、高能物理等十一大现代物理分支的未公开难题。每道题目都要求模型完成从问题建模到跨领域推理的完整科研流程，最终评分系统显示Gemini 3 Pro以9.1%的得分率领先群雄。

CritPt测试的独特之处在于其题目设计完全模拟真实科研场景。测试题目不依赖现有教材或公开题库，而是由活跃物理学者根据当前研究热点设计。例如某道量子纠缠相关的测试题，要求模型同时处理实验数据建模和理论推导两个维度的问题，这种设计有效区分了模型的表面理解能力和深度推理能力。

行业观察家指出，Gemini 3的连续突破具有双重意义。在技术层面，该模型证明了通用人工智能在专业科研领域的可行性；在应用层面，其表现预示着科研范式可能发生重大转变。陶哲轩等顶尖学者的实践表明，AI工具正在从辅助计算角色转变为真正的科研合作伙伴，这种转变将重塑未来科学研究的工作流程。

尽管取得显著进展，专家提醒仍需保持理性。CritPt测试9.1%的得分率显示，当前AI在处理复杂物理问题时仍存在明显局限。特别是在需要创造性突破的前沿领域，人类科学家的洞察力依然不可替代。这种人机协作模式的发展，或将催生新的科研评价体系和人才培养标准。

更多>同类资讯

《环月地铁》：科技与人文共舞绘就星际文明可持续发展新蓝图

01-11

NAVEE CES 2026 闪耀登场：高性能新品拓展边界，解锁多元户外出行新体验

01-11

香港科技大学创新KV-Embedding技术：无需重训，AI文本理解力显著提升

01-11

AI新突破：TII推出Falcon-H1R，小模型以7B参数力压32B"巨无霸"

01-11

GPT-5.2突破人类基准线！OpenAI直言：大模型能力待释放，人机协同成新赛道

01-11

AI助力期末复习新景象：千问APP找真题需求激增，成备考神器

01-11

华人创始AI模型新动态：Claude对手GLM-4.7与MiniMax M2.1免费开放体验

01-11

离开特斯拉后，张海星携MATRIX-3开启人形机器人新篇章

为实现这一跨越，矩阵超智的工程团队突破了材料科学、驱动技术、感知算法与人工智能的多重边界，为MATRIX-3注入了以下三大优势：它融合了仿生设计、极致灵巧的物理执行以及具有泛化能力的人工智能，构建了一个真…

01-11

Wi-Fi 8时代即将来临：技术革新引领无线通信新篇章，产业竞逐加速布局

在博通公司的发布介绍中，他们为这三款芯片解决方案支持的Wi-Fi 8所构建的典型应用场景，不仅可支撑工业环境中机器人、传感器的可靠连接，也能为消费级Mesh网络（如家庭、商场的多接入点覆盖）提供更流畅的漫游…

01-11

长城汽车2026 CES大放异彩，硬核科技赋能全场景生态领航全球！

01-11

希迪智驾携手速腾聚创，共促自动驾驶多场景规模化落地提速

01-10

临沂“呆马大模型”备案成功：小模型发力，助力传统企业数字化转型新路径

齐鲁网·闪电新闻1月9日讯近日，临沂呆马区块链网络科技有限公司开发的“呆马大模型”成功在国家网信办完成备案，正式获得国家级生成式人工智能服务备案认证，这也使临沂成为继济南、青岛、淄博之后，山东省第四个拥有国家…

01-10

特斯拉前成员再出发：MATRIX-3人形机器人开启物理世界智能新篇章

01-10

CES 2026首秀：瑞声科技人形机器人方案亮相，多领域创新助力智能未来

01-10

英伟达GEAR实验室新突破：Jim Fan揭秘机器人学习路径，押注视频世界模型

01-10

点击查看更多 +

全站最新

宋Pro DM-i 220公里纯电续航来袭！家庭出行“全能选手”开启品质新生活

现代STARIA纯电版亮相：800V架构加持，空间与充电优势并存但续航存短板

2026款宋Pro DM-i长续航版来袭！12万内续航超给力，能否再创销量神话？

新一代小米SU7全系标配V6s Plus电机自研自产提升效率缩短交付周期

2026款宋Pro DM-i长续航版登场续航升级+智能配置 11.98万起售

比亚迪2026年动作不断宋Pro长续航版上市中端插混升级也值得期待

热门内容

本栏最新

长城汽车2026 CES大放异彩，硬核科技赋能全场景生态领航全球！

希迪智驾携手速腾聚创，共促自动驾驶多场景规模化落地提速

上汽大众ID.ERA 9X来袭！大气外观+6座空间+增程动力，能否成爆款？

吉利银河V900预售开启，以AI与全能实力重塑豪华MPV新价值

别克至境E7登场！大五座SUV新选择，智电出行品质升级

合资奋起直追新能源赛道别克至境E7官图亮相插混大五座SUV实力几何

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.