滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

谷歌全线开挂！Gemini 3 Deep Think夺多项推理SOTA，Gemini亚洲新团队也官宣了

时间：2025-12-06 01:12:52 来源：AI前线编辑：快讯 IP：北京 发表评论无障碍通道

刚刚，Gemini 3的Deep Think 模式终于正式上线了。

顾名思义，这是 Gemini 3 的深度思考模式，推理能力显著加强，能处理复杂、多步骤，以及更多创新的问题，还可以搞定超难的科学问题和数学题！

是 ARC-AGI、HLE等

多项权威测评中的第一名

先来看看Gemini 3 Deep Think是怎么一回事。

在公认的大模型最难测试之一、全球最接近“通用智能（AGI）核心能力”验证的基准测试ARC-AGI中，Gemini 3 Deep Think 在 2 个榜单中均拔得头筹。

其中，ARC-AGI-1主要测模型的基础抽象推理。在这项测试中，Gemini 3 Deep Think 的答题正确率排第一，达到了 87.5%，打败了 GPT-5 系列、Claude Opus 4.5 等。

ARC-AGI-2则将任务升级为多步骤、递归、隐藏规则等，是更接近“类人智慧”的高阶推理场景。

其中，Gemini 3 Deep Think 正确率达45.1%，比非深度思考模式的 Gemini 3 Pro（正确率 31.1%）高出了 14%。而在这项测试中，GPT-5 Pro 的正确率仅有18.3%。

Gemini 3 Deep Think 在人类最后考试（Humanity’s Last Exam，HLE）和GPQA Diamond这两个高难度评测中也都取得了第一名。

HLE 是谷歌 DeepMind 设计的一项综合性推理测试，用于检验模型在跨学科问题、复杂逻辑、多步骤推理等方面的真实智能水平，难度远高于传统选择题式的 benchmark。

而 GPQA Diamond 则聚焦量子物理、统计力学等高阶科学问题，被视为检验模型是否具备“研究级科学理解力”的金标准。

Deep Think 在这两项测试中都取得领先成绩，说明它不仅在抽象推理上显著提升，还具备更强的科学知识推断与深度理解能力。

不过，目前 Gemini 3 的 Deep Think 模式只向 Google AI Ultra 订阅用户开放。

在社交媒体上，Gemini 3 的这个新功能引起了网友的热议。

有网友对其 Deep Think 模式的测试成果竖起大拇指：

“HLI 和 ARC 的收益率都超过 40%，这很棒。”

有网友表示，Deep Think 的调试与代码推理能力，已经超过现有大多数模型：

“Gemini 3 Deep Think 成功解决了那个让我耗费好几天的 stack underflow bug。它给出的答案比 Opus 4.5 更明确，而后者是唯一一个也能解出这个问题的公开模型（甚至 Gemini 3 Pro 都失败了）。

Deep Think 甚至能自信地指出 bug 的确切位置。不过，它运行确实很慢......”

还有人大赞 Gemini 3 Deep Think““创意场景推理””能力：

“这是我在这个提示（创意场景推理）上获得过的最佳输出之一，完全是前所未见的水准。”

不过也有人提出，虽然 Gemini 3 的实际使用效果并没有那么好，希望能赶紧优化 AGI 的相关功能。

DeepMind 将成立新的

Gemini 研究团队

今天谷歌 DeepMind 宣布，将在新加坡成立全新的 Gemini 研究团队。

带队人是 95 后华人科学家 Yi Tay，他分享称，这个新团队将专注于高级推理、LLM/RL 以及改进 Gemini、Gemini Deep Think 等前沿 SOTA 模型。

这个团队，将向 Google Brain（现在 Google DeepMind 的前身之一）的创始成员之一 Quoc Le 汇报。

他还提到，谷歌 DeepMind 在美国总部 Mountain View 的团队，近期已经凭借 Gemini Deep Think，在 IMO 和 ICPC 两项国际数学奥林匹克竞赛中斩获金牌，并在 Gemini 项目的其他诸多重要进展中发挥了关键作用。

有趣的是，Yi Tay 还分享了一张他用 Nano Banana 生成的一张新加坡 Gemini 新团队“办公大楼”的趣味插画。图中汇集了新加坡的标志性建筑：滨海湾花园、鱼尾狮、滨海湾金沙酒店... 以及“Gemini Team”大楼。

关于 Yi Tay 其人：他不仅是一位“高产”的学术研究者，在 Google Scholar 上的论文引用量达数万次，还在 Gemini 项目的诸多进展中发挥关键作用。

至于这个新团队，据 Yi Tay 介绍，团队的规模不会很大，但人才密度极高，过去几个月正在招募全球最顶尖的人才。

同时，他们还将与 AI 领域的不少传奇大佬合作，包括 Google Brain 传奇科学家 Quoc Le、“推理之王”Denny Zhou；以及深度架构大师 Mostafa Dehghani，就是 nano banana 背后的男人，还有 Transformers 发明人之一 Noam Shazeer 等等。

不少当代行业顶尖人才输送新鲜血液，如生成式检索共同奠基者 Victor Tran、IMO 金牌纪录保持者 Lê Minh Thang、自洽性与 CoT 提出者薛之、以及日本代表性 AI 学者 Shane Gu 等，可谓星光熠熠。

虽然新团队的具体成员还未暴露，但回顾 Gemini 团队的诞生始末，也能略窥一二。

Gemini 团队诞生于 2023 年谷歌的 AI 大重组——当时 Google 将负责大模型研究的Google Brain，与负责通用智能探索DeepMind，合并为新的 Google DeepMind。

旨在把最强科研与最强工程整合，打造可与 GPT 系列正面竞争的下一代基础模型。

合并后首个战略动作，就是成立 Gemini 团队：一个覆盖算法设计、超大规模训练、多模态系统构建，到产品化落地的全链路超级团队。

Gemini 团队一口气推出 Ultra、Pro、Flash 三大全系模型，将 Gemini 推向全球数十亿用户，正式成为谷歌 AI 的王牌引擎。

One More Thing

还有值得一提的，谷歌最近新动作频频，昨天还正式推出的Google Workspace Studio。

以前，邮件看不过来、日程排不完、文档数据要手动整理...... 这些每天都在消耗上班族的注意力。但从现在开始，它们都可以被 AI 接管。

Workspace Studio 深度整合了谷歌的办公全家桶（Gmail 邮件、Docs 文档、Sheets 表格、Drive 云端硬盘、Chat 聊天、Calendar 日历），不写代码、几分钟就能做出自己的 AI Agent——从简单提醒到跨系统流程自动化，全都可以交给 AI 跑。

Workspace Studio 基于谷歌最强大的Gemini 3，具备推理、多模态理解和跨应用调用能力。你只需给它一个示例，它就能自动执行复杂办公任务：情感分析、内容生成、优先级排序、智能通知……统统自动化。

网友们纷纷表示赞叹，确实解决了痛点问题，恨不得马上使用。

更多>同类资讯

SpaceX“星舰”V3试飞临阵叫停马斯克：若修复或于5月22日再试

05-22

神舟二十三号蓄势待发，中国空间站第八次“会师”及多项任务稳步推进

05-22

致敬未知凭智能穿戴与垂直场景布局斩获2026星球奖“最值得投资企业”殊荣

05-22

SpaceX星舰V3发射取消：史上最高最强火箭新尝试或于近期重启

05-22

SpaceX星舰V3即将发射：高度与推力再创新高，航天探索新里程

05-22

网易Q1财报：游戏“挑大梁”，非游戏业务增长乏力待破局

05-22

雷军谈YU7标准版回归：少一款不利竞争，正学习特斯拉谋超越

05-22

AI盈利曙光初现：Anthropic用企业场景突破，大模型商业化迈出关键一步

05-22

雷鸟V4重磅来袭！多项行业首发技术，引领AI拍摄眼镜迈向新高度

05-22

联想Q4利润暴增479% 交出史上最强财报

5月22日，联想集团发布2025/26财年第四季度暨全年业绩财报。财报显示，联想第四财季营收达1495亿元，同比增长27.1%，创近20个季度最高增速；按香港财报准则计算的净利润同比激增479.5%，调整后净利润同比增100.7%。全年业绩同样创下历史新高，联想集团全年总营收达5899

05-22

AI硬件新突破：未来智能viaim讯飞智能体耳机开启Agent时代新篇章

如果只看功能列表，这似乎只是viaim讯飞AI会议耳机的一次软件升级；但如果站在公司战略的高度审视，这显然是未来智能一次清晰的跃迁。马啸在演讲中回顾了未来智能的战略演进：1.0时代的AI会议耳机，解决的是…

05-22

机构预测：谷歌Android XR智能眼镜2026年或售200万台跻身销量榜第二

即便如此，谷歌智能眼镜市场占比预计仅为整体销量的五分之一。 IT之家注意到，该分析机构预测，2026 年全球智能眼镜总出货量将高达 1500万台。目前市面带内置显示屏的人工智能眼镜款式有限，报告指出，20…

05-22

小米YU7对战特斯拉Model Y有胜有负雷军推新版本并称YU7 GT创纽北SUV圈速新纪录

05-22

联想2025/26财年Q4业绩亮眼：营收利润双增，AI业务成核心引擎

05-22

保时捷反超小米SU7 Ultra纽北纪录，雷军：车企良性竞争，小米YU7 GT创SUV新纪录

05-22

点击查看更多 +

全站最新

上汽集团月底将迎全球第一亿位用户交付开启中国汽车工业新里程

东风汽车牵手Stellantis集团拟在欧设合资企业共推中国汽车品牌生态出海

赛力斯AI变革实践：从造车到团队，AI赋能组织跃升新高度

北京越野BJ40增程长续航版上市，以续航与性价比切入市场新赛道

标致2030年规划曝光：7款新车蓄势待发多能源战略全面铺开

斯巴鲁Uncharted进军德国市场运动设计+多样动力 36990欧元起售

热门内容

本栏最新

上汽集团月底将迎全球第一亿位用户交付开启中国汽车工业新里程

小米YU7对标Model Y十个月战况：八败两胜，成20万以上唯一赢过它的国产纯电车

2026深圳：第十六届世界CMF大会启幕，共探具身智能与机器人CMF新未来

雷军谈保时捷反超：祝贺对手破纪录，小米将持续学习并争取再超越

纽北新王登基！小米YU7 GT 7分22秒755破纪录，雷军畅谈伟大旅程新体验

小米5年豪掷千亿研发！雷军再立宏愿：未来5年超2000亿加码技术新赛道

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.