谷歌公司今日正式推出新一代人工智能模型Gemini 3,这款被官方定义为“通往通用人工智能(AGI)重要里程碑”的产品,在多模态理解、深度推理和自主执行能力方面实现突破性进展。据测试数据显示,该模型在主流基准测试中全面超越前代产品及当前市场领先模型,其增强版Deep Think模式更展现出博士级问题解决能力。
核心版本包含Gemini 3 Pro与Deep Think两种形态。Pro版本即日起通过Gemini应用和AI Studio开放预览,在LMArena测评中以1501分刷新纪录,较前代提升超过15%。在Humanity’s Last Exam测试中取得37.5%裸分(不使用外部工具),GPQA Diamond测试准确率达91.9%,MathArena Apex数学基准测试中以23.4%的成绩确立新标准。多模态领域同样表现亮眼,Video-MMMU视频理解测试得分87.6%,SimpleQA事实核查准确率突破72.1%。
增强推理模式Deep Think通过专项优化,在复杂问题处理上实现阶跃式提升。测试数据显示,该模式在Humanity’s Last Exam得分提升至41%,GPQA Diamond准确率达93.8%,在包含代码执行的ARC-AGI-2测试中取得45.1%的突破性成绩。谷歌透露,Deep Think模式将作为高级功能,未来数周内向AI Ultra订阅用户开放。
开发平台方面,全新推出的Antigravity平台重构了AI开发范式。该平台深度集成Gemini 3 Pro、2.5 Computer Use浏览器控制模型及Nano Banana图像编辑模型,赋予智能体直接操作编辑器、终端和浏览器的权限。在WebDev Arena编码测试中,Gemini 3以1487分登顶排行榜,Terminal-Bench 2.0终端操作测试中完成54.2%的任务,SWE-bench Verified代码验证测试准确率达76.2%。
针对普通用户场景,Gemini 3扩展了100万token的上下文处理能力,支持文本、图像、视频、音频和代码的跨模态交互。实测案例显示,该模型可自动识别多语言手写食谱并生成电子烹饪书,通过分析匹克球比赛视频制定个性化训练方案。在搜索服务中,AI模式新增生成式交互界面,可根据用户查询即时创建可视化工具和沉浸式布局。
长时程规划能力验证方面,Vending-Bench 2测试显示Gemini 3 Pro在全年模拟运营中保持决策一致性,较前代提升37%的运营回报率。这项能力使其能高效处理旅行规划、邮件分类等现实场景中的多步骤任务。谷歌宣布,此次发布首次实现新模型在发布当日即接入搜索服务,AI Pro和Ultra订阅用户可立即体验增强功能。
技术部署层面,Gemini 3采用全栈式AI策略,形成覆盖消费级应用、开发者工具和企业服务的完整生态。普通用户可通过Gemini应用和搜索AI模式直接使用,开发者可借助AI Studio、Antigravity平台及CLI工具进行二次开发,企业客户则通过Vertex AI和Gemini Enterprise获得定制化解决方案。谷歌透露,当前AI Overviews月活跃用户已达20亿,Gemini应用月活突破6.5亿,新模型的部署将进一步巩固其市场领先地位。











