谷歌近日宣布,其人工智能模型Gemini3DeepThink迎来重大升级,这款专为复杂任务设计的推理模型,在科学和工程领域展现出强大实力,引发业界广泛关注。此次升级后的DeepThink不仅在多项基准测试中刷新纪录,更在实际应用中展现出巨大潜力。
在性能表现方面,DeepThink堪称"考试冠军"。在被称为"人类最后考试"的测试中,不使用任何工具的情况下取得48.4%的成绩,远超ClaudeOpus4.6的40%和GPT-5.2的34.5%。在ARC-AGI-2抽象推理测试中,84.6%的得分更是突破性成就,此前最强模型得分仅在60%-70%区间。编程领域同样表现亮眼,在Codeforces平台获得3455的Elo评分,跻身全球顶尖程序员行列。
科学应用领域,DeepThink展现出独特价值。在2025年国际物理和化学奥赛笔试中,该模型获得金牌级别成绩。更令人瞩目的是,罗格斯大学数学家LisaCarbone利用其审阅专业论文时,成功识别出人工评审未能发现的逻辑缺陷,这项突破被视为人工智能从辅助工具向研究合作者转变的重要标志。杜克大学团队借助DeepThink优化晶体生长方案,培育出尺寸超100微米的薄膜,技术指标超越所有现有方法。
工程实践方面,DeepThink正在改变传统工作模式。工程师可通过自然语言指令,让模型分析图纸、建模复杂形状并生成3D打印文件。在半导体材料研发中,该模型能快速探索新型材料组合,显著缩短研发周期。谷歌CEO桑达尔·皮查伊特别强调,模型专门针对缺乏明确解决方案的现实问题优化,特别适合处理数据不完整或存在噪声的复杂场景。
技术团队构成同样引人注目。去年9月加入谷歌DeepMind的清华物理系学者姚顺宇,作为核心成员参与新模型开发。他在社交平台分享使用体验时表示,DeepThink的推理能力已达到研究级水平,能够支持数学家开展前沿探索。这种跨学科背景的研发团队,或许正是模型在科学领域表现突出的关键因素。
行业反响热烈,多位专家对测试成绩表示震惊。有AI从业者指出,ARC-AGI-2测试84.6%的得分远超人类平均水平,若模型确实具备模式识别而非记忆能力,将重新定义人工智能的认知边界。谷歌前工程师评论称,发现论文逻辑缺陷的案例证明,人工智能已跨越辅助验证阶段,真正成为研究合作伙伴。
目前,DeepThink已通过Gemini应用向GoogleAIUltra订阅用户开放,同时通过GeminiAPI向特定研究人员和企业提供访问权限。这种双轨开放策略,既保证核心用户优先体验,又为专业领域定制化开发留下空间。随着模型在材料科学、高能物理等领域的深入应用,人工智能推动基础研究突破的时代或许正在到来。
















