谷歌近日宣布对旗下人工智能模型Gemini 3 Deep Think进行重大升级,推出专为科学、研究与工程领域设计的"推理模式"。这一版本由谷歌工程师与多领域科研人员联合开发,旨在解决真实科研场景中普遍存在的复杂问题,包括边界模糊、多解并存以及数据不完整等挑战。

在应用范围方面,更新后的Deep Think自2月12日起通过Gemini应用向Google AI Ultra订阅用户开放。同时,谷歌首次通过Gemini API向特定研究人员、工程师和企业开放"早期访问计划",并设置申请通道招募测试用户。这一举措标志着该技术开始从实验室走向实际应用场景。
性能测试显示,新版模型在数学与编程领域表现突出。在不借助外部工具的情况下,该模型在终极人类考试(Humanity's Last Exam)中取得48.4%的成绩,在ARC-AGI-2测试中达到84.6%(经ARC Prize Foundation验证),在Codeforces编程竞赛基准中获得3455的Elo评分,更在2025年国际数学奥林匹克竞赛模拟测试中达到金牌水平。这些数据表明其推理能力已接近人类顶尖水平。
除计算领域外,模型在自然科学方面同样展现优势。在2025年国际物理奥林匹克与国际化学奥林匹克模拟笔试中,该模型均取得金牌级成绩,并在理论物理基准测试CMT-Benchmark中获得50.5%的得分。这些突破使其成为首个在多学科奥赛级别测试中均表现优异的人工智能系统。

谷歌强调,Deep Think的研发不仅关注基准测试分数,更注重实际科研与工程应用。该模型可协助研究人员解析复杂数据集,帮助工程师通过代码构建物理系统模型。通过Gemini API的早期访问计划,谷歌希望将这项技术推广至科研机构和工业界,解决真实世界中的技术难题。目前,首批测试用户已开始在气候建模、新材料开发等领域展开应用探索。







