在科技行业的激烈竞争中,一家曾占据领先地位的科技巨头,曾一度面临被时代快速发展的浪潮甩在身后的困境。DeepMind首席技术官、Google首席AI架构师Koray Kavukcuoglu在一次访谈中,罕见地揭开了Google在过去两年里真实的追赶历程,这一过程并非聚焦于参数的堆砌或模型“神迹”的展示,而是深入探讨了如何在庞大的企业架构中重新激发创新能力、优化工程流程、强化组织协作,并将技术切实转化为具有市场竞争力的产品。
访谈中,Koray坦言,Gemini项目的启动,源于一个令人警醒的认知——Google在大型语言模型(LLM)的起跑线上,已经远远落后于竞争对手。这一认知并非轻描淡写的自我评价,而是基于对行业现状的深刻洞察。它促使DeepMind摒弃了过去十年的自信,转而从最基础的用户使用场景出发,重新构建训练方式、产品开发策略、工程实施路径以及组织协作模式。
Gemini 3在中国用户中获得的积极反馈,成为了一个引人注目的案例。用户形容其“像Windows XP一样稳定好使”,这一评价背后,是Google在模型、用户界面(UI)和任务链路整合上的重大突破。过去,大模型虽展现出高智商,但在实际应用中却显得不够“好用”。Gemini 3则通过优化用户界面、稳定任务拆解、提升模型对人类意图的理解能力,以及让产品团队从训练阶段就深度参与模型设计,实现了模型与真实用户数据的直接反馈循环,从而显著提升了用户体验。
面对外界对Google在基准测试(benchmark)中成绩起伏不定的批评,Koray指出,主流基准测试正逐渐接近其自然上限,无法全面反映模型在真实世界中的表现。学生写作、科学研究、专业翻译、复杂跨语境对话等场景,远非一个固定测试集所能涵盖。因此,Google将模型的最终价值评估标准,从“得分”转向了“能否有效帮助用户完成任务”,这一转变标志着Gemini的第一性原理发生了根本性变化。
从Gemini 3开始,Google明确了三个核心能力方向:指令遵从、国际化能力和工具调用与代码执行。指令遵从要求模型能够无歧义地理解和执行用户的真实意图,这对提升用户体验至关重要;国际化能力则强调模型需理解全球不同文化语境,而非仅限于翻译能力的延伸;工具调用与代码执行则是未来智能体的基础,要求模型不仅能理解问题,还能执行任务、运行工具链,处理工程环境中的真实任务。这三者共同构成了Google的“Gemini设计哲学”——智能源于“可靠的执行”,而非“更聪明的对话”。
在多模态模型领域,Google虽拥有强大实力,但其智能体(Agent)的初期表现却不尽如人意。Koray解释称,实验室中的视觉理解研究,与真实用户需求驱动的Agent场景存在巨大差异。真正的Agent能力,源于创作者的任务链路、学生的写作流程、工程师的工具调用模式以及商业用户的复杂需求。Google选择了一条与OpenAI不同的路径——以真实用户需求为优先,而非依赖酷炫的演示来驱动Agent能力的发展。
Gemini 3的成功,得益于模型、产品、工程和安全团队的首次全面整合。过去,这些团队往往各自为战,模型训练完成后才由产品团队接手,安全审核和工程部署则分别在后续阶段进行。而今,产品团队从训练初期就深度参与,安全成为训练目标而非后置规则,真实用户数据直接反哺模型,使用成本、延迟和推理路径在训练阶段就得到优化。这一统一体系的构建,为Google在2024至2025年的反超奠定了结构性基础。
在图像模型领域,Nano Banana Pro的突破并非体现在“画图变好看”,而在于其“理解世界结构”的能力。该模型能够理解PDF、表格、图表等复杂文档结构,具备结构化的视觉推理能力,并能生成“概念一致的信息图”。这一突破标志着多模态模型向真正理解世界迈出了重要一步,也为Agent的未来发展提供了有力支撑。
Koray强调,多模态模型不仅是功能的简单叠加,更是通往“世界模型”的入口。文本、视觉和音频分别代表了线性、空间和时序的感知维度,真实世界需要模型同时具备这三种感知能力。因此,Google在推进统一多模态模型上的坚持,源于对理解世界基础的深刻认识。
统一模型的构建并非简单地将视觉功能融入语言模型,而是一场深刻的架构革命。文本和图像的输出结构截然不同,训练方式、损失函数、优化器和token化方式均需重新发明。这一工程极限的突破,体现了Google在技术创新上的不懈追求。
DeepMind的文化基因,由科学心态、谦逊和协作能力三部分组成。科学心态强调所有问题应回归实验与学习,而非依赖既有路径;谦逊则体现在对未知领域的敬畏和持续探索的勇气;协作能力则使团队能够从撰写论文的小规模合作,扩展到推进单一模型的大规模协作。这一文化结构,在Google从科研向工程、从工程向产品转型的过程中发挥了至关重要的作用。
规模既是Google面临的挑战,也是其最大的武器。随着规模的扩大,保持一致性变得愈发困难,但规模本身也构成了强大的推进力。Google能够同时推进统一模型、多产品落地、跨部门协作、全球化数据管线以及超大规模训练与部署,得益于其世界上最成熟的基础设施链路。这一链路的重启,为Google的攻势注入了新的活力。
在安全策略上,Google与OpenAI的最大差异在于方式而非严格程度。Google将安全视为训练能力的一部分,而非训练后添加的过滤器。这一策略天然适配Google的基础设施规模,为模型的可靠性提供了有力保障。
面对统一模型与专用模型的路线选择,Koray表示,这不是意识形态问题,而是效率问题。未来,统一模型与专用模型将并存,Google的策略是使用合适的工具完成合适的任务,而非坚持单一范式。这种务实态度,体现了Google对市场需求的深刻理解。
Google的真正底气,源于其基础设施的重新激活。Koray指出,智能规模化并非依赖天才算法,而是依靠强大的管线支持。能够训练、部署、迭代、处理全球数据并保持安全一致性的,是基础设施而非算法本身。这一认识,为Google在大模型时代的竞争中提供了坚实支撑。
对于未来模型的路线,Google保持着开放和不确定的态度。Koray坦言,“我们不知道最终配方”,扩参、统一模型和多模态均非终局答案。这种“带着不确定性继续前行”的姿态,使Google在追求AGI的道路上显得更加稳健和长远。
Google的下一阶段目标,将聚焦于深层推理、多步任务执行和复杂场景中的鲁棒性。从“会回答”到“会行动”,这是整个行业的共同方向,而Google则给出了相对清晰的内部路径。这一转变,标志着Google在AI领域的探索正迈向新的高度。
在Gemini的诞生过程中,Google展现出了全公司规模的“科学工程项目”实力。训练、数据、工程、产品、安全和协作等环节的重新对齐,构成了Gemini成功的基石。过去两年,Google并未寻找捷径,而是致力于恢复一个体系应有的速度和一致性。随着这些基础的稳固,一个属于Google的节奏也重新显现。












