谷歌旗下人工智能模型Gemini 3近日迎来重大升级,其深度思考模式Deep Think正式面向特定用户群体开放。这一模式以显著强化的推理能力为核心,在处理复杂多步骤任务、创新性问题和科学计算领域展现出突破性表现,成为当前大模型技术竞争中的焦点。
在衡量通用智能核心能力的权威基准测试ARC-AGI中,Deep Think模式在两个子榜单中均登顶榜首。其中基础抽象推理测试(ARC-AGI-1)中,该模型以87.5%的准确率超越GPT-5系列和Claude Opus 4.5等竞争对手。在更复杂的高阶推理测试(ARC-AGI-2)中,其正确率达到45.1%,较非深度思考版本的Gemini 3 Pro提升14个百分点,而GPT-5 Pro在该测试中仅取得18.3%的成绩。
该模型在跨学科综合测试Humanity’s Last Exam(HLE)和量子物理专项测试GPQA Diamond中同样表现卓越。HLE测试聚焦复杂逻辑与多步骤推理能力,GPQA Diamond则被视为检验模型科学理解力的"金标准"。这两项测试的领先成绩,印证了Deep Think在抽象推理与科学知识深度理解方面的双重突破。
社交媒体反馈显示,用户对Deep Think模式的实际表现给予高度评价。有开发者称该模型成功解决了困扰其数日的栈溢出错误,指出答案清晰度优于公开模型中唯一能处理同类问题的Opus 4.5。另有用户特别赞赏其在创意场景生成任务中的表现,认为输出质量达到前所未有的水准。不过也有使用者反馈,当前版本存在运行速度较慢的问题,期待后续优化。
谷歌DeepMind同步宣布在新加坡组建全新Gemini研究团队,由95后华人科学家Yi Tay领衔。该团队将专注于高级推理、大语言模型与强化学习等前沿领域,直接向Google Brain创始人之一Quoc Le汇报工作。团队成员构成堪称"全明星阵容",既包括Transformers发明人Noam Shazeer等传奇学者,也汇聚了IMO金牌得主、自洽性理论提出者等当代顶尖人才。
据介绍,新团队将保持精干规模但人才密度极高,近期正在全球招募顶尖研究者。其研究重心涵盖算法设计、超大规模训练、多模态系统构建等全链条技术,旨在持续推动Gemini系列模型的迭代升级。该团队的成立,标志着谷歌在AI领域资源整合进入新阶段,继2023年合并Brain与DeepMind后,再次通过组织架构创新强化技术竞争力。
在模型升级的同时,谷歌同步推出办公自动化平台Workspace Studio。该平台深度整合Gmail、Docs、Sheets等办公套件,用户无需编程即可创建AI代理,实现邮件自动处理、日程智能安排、跨系统流程自动化等功能。基于Gemini 3的推理能力,平台可完成情感分析、内容生成、优先级排序等复杂任务,有效减轻职场人士的认知负荷。早期测试者反馈显示,该工具切实解决了办公场景中的痛点问题。






