谷歌今日正式推出新一代人工智能模型Gemini 3,这款被官方定义为“通往通用人工智能(AGI)重要里程碑”的产品,在多模态理解、深度推理及智能体开发能力上实现突破性进展。据实测数据,其综合性能已超越当前主流模型GPT-5与Claude sonnet 4.5,在编程、科学模拟等复杂任务中展现出接近人类专家的水平。
核心版本分为Gemini 3 Pro与增强推理模式Deep Think。Pro版本即日起通过Gemini应用、Google AI Studio及全新Agent开发平台Antigravity开放预览,Deep Think模式则需数周完成安全评估后向Ultra订阅用户推送。此次发布标志着谷歌首次在发布首日将新模型全面接入搜索服务,覆盖普通用户、开发者及企业客户三大群体。
在基准测试中,Gemini 3 Pro以1501分登顶LMArena排行榜,刷新多模态模型得分纪录。其数学推理能力在MathArena Apex测试中取得23.4%的突破性成绩,确立前沿模型新标准;多模态理解方面,Video-MMMU测试得分87.6%,SimpleQA事实准确性验证达72.1%。特别在Humanity’s Last Exam测试中,Pro版本以37.5%的无工具得分展现博士级推理水平,Deep Think模式更将该成绩提升至41.0%。
开发平台Antigravity成为本次发布亮点。该平台集成Gemini 3 Pro、2.5 Computer Use浏览器控制模型及Nano Banana图像编辑模型,赋予智能体直接操作编辑器、终端和浏览器的权限。实测显示,搭载该平台的智能体可自主完成从需求分析到代码验证的完整软件开发流程,在WebDev Arena编码测试中以1487分领跑行业,Terminal-Bench 2.0终端操作测试得分54.2%。
针对普通用户场景,Gemini 3扩展至100万token的上下文窗口,支持跨文本、图像、视频、音频的混合处理。示例应用包括:将多语言手写食谱自动整理为电子烹饪书,通过运动视频生成个性化训练计划,以及在搜索界面直接生成交互式工具。在Vending-Bench 2模拟商业测试中,该模型全年运营决策一致性达行业最高水平,验证其在多步骤工作流中的可靠性。
企业级部署方面,Vertex AI平台同步更新Gemini 3接入能力,支持金融、医疗等领域的复杂推理需求。搜索服务升级后,AI模式可根据查询动态生成沉浸式视觉布局,例如将旅游规划查询转化为包含地图、日程、预算的整合界面。谷歌透露,AI Overviews月活跃用户已达20亿,Gemini应用月活突破6.5亿,新模型将通过“全栈式AI”策略深化生态整合。
技术文档显示,Deep Think模式在ARC-AGI-2测试中取得45.1%的突破性成绩,该测试要求模型通过代码执行解决新颖问题。尽管在SWE-bench Verified软件工程基准中以76.2%落后于Claude sonnet 4.5的78.1%,但谷歌强调其代码自我验证能力可显著降低人工审核成本。目前开发者可通过Gemini CLI、Vertex AI及Antigravity平台调用新模型,企业客户需联系销售团队获取定制化部署方案。











