谷歌最新发布的Gemini 3 Deep Think模型正在重塑人工智能的能力边界。这款专为复杂推理任务设计的升级版模型,在数学、编程及多学科领域展现出超越人类顶尖水平的实力,标志着AI技术进入全新发展阶段。
在数学竞赛领域,该模型以48.4%的准确率刷新"人类终极考试"基准测试纪录,且未借助任何外部工具。更令人瞩目的是,其在2025年国际数学奥林匹克模拟赛中达到金牌标准,并在凝聚态物理基准测试(CMT-Benchmark)中取得50.5%的成绩。编程能力方面,模型在Codeforces平台获得3455分,排名全球第八,较前代OpenAI模型提升近千分,成本却降低数百倍。
工程应用场景同样见证突破性进展。杜克大学团队利用该模型优化半导体材料制备工艺,成功设计出可生长100微米以上厚度薄膜的制造方案,突破传统方法精度极限。罗格斯大学物理学家Lisa Carbone则借助模型完成高能物理论文审核,发现人工评审遗漏的逻辑漏洞,验证了AI在专业学术领域的实用价值。
技术实现层面,模型通过深度融合科学理论与工程实践,将抽象概念转化为可操作方案。其最新功能支持将二维草图直接转换为3D打印文件,自动完成复杂几何建模与结构优化。这种跨领域能力源于谷歌与科研机构的深度合作,清华物理系姚顺宇等学者参与开发,确保模型在科学问题处理上的严谨性。
商业落地方面,Deep Think已通过Gemini应用向Ultra订阅用户开放,同时通过API向特定企业及研究机构提供服务。在ARC-AGI系列测试中,模型分别取得96.0%(ARC-AGI-1)和84.6%(ARC-AGI-2)的成绩,每任务成本控制在7.17至13.62美元区间,较前代模型降低两个数量级。这种效率跃升正在推动AI从辅助工具向独立科研伙伴转型。










