在人工智能领域,Gemini 3的发布无疑成为今年备受瞩目的里程碑事件。这款由谷歌DeepMind团队打造的模型,在性能上实现了巨大飞跃,其背后是庞大团队的协作以及无数改进与创新的融合。谷歌DeepMind的Gemini 3预训练负责人Sebastian Borgeaud,同时也是开创性论文RETRO的合著者,在首次播客访谈中,深入剖析了这款前沿模型的研发逻辑。
Sebastian Borgeaud指出,Gemini 3的成功并非依赖单一关键突破,而是众多因素共同作用的结果。从架构层面看,它基于Transformer的混合专家架构,这种架构将计算量的使用与参数规模分离开来,通过动态路由把计算能力分配到特定专家模块。在预训练领域,规模虽是提升模型性能的重要因素,但并非唯一。架构创新和数据创新如今的重要性愈发凸显,例如长上下文能力、注意力机制等方面的研究,正成为推动预训练发展的关键方向。
当前,人工智能行业正经历从“数据无限”向“数据有限”范式的转变。Sebastian Borgeaud认为,虽然目前不会面临数据枯竭的问题,但数据量的有限性确实改变了研究方向和研究问题的思路。合成数据的使用需要谨慎,因为很容易误用。而模型架构的改进,能让模型用更少的数据实现更好的效果。同时,评估在预训练中至关重要且极具难度,要避免模型过度拟合测试集,创建独立的评估集并严格保密是了解模型实际性能的关键。
在团队协作方面,Gemini 3的预训练团队规模庞大,约150到200人每天在预训练相关领域工作,涵盖数据、模型、基础设施和评估等多个方面。Sebastian Borgeaud作为预训练负责人之一,既要负责实际研究工作,提升模型性能,又要协调整合团队成员的工作,让每个人都能发挥所长,共同实现最大突破。
回顾个人经历,Sebastian Borgeaud在欧洲多个地方长大,拥有多元的成长背景。他在剑桥大学完成本科和硕士学业后,凭借硕士期间讲师的推荐,于2018年加入DeepMind。最初,他参与的项目与强化学习相关,但因更希望从事与真实世界数据相关的工作,他转向表征学习领域,并逐渐投身于大语言模型的规模化发展研究,参与了Gopher、Chinchilla和Retro等项目,积累了丰富的预训练经验。
对于Gemini 3的架构,从宏观层面看,与前一个版本相比没有太大变化,但多个方面的改进促成了巨大提升。作为原生多模态模型,Gemini 3由同一个神经网络同时处理文本、图像、音频等不同模态的信息。虽然这会增加一定的成本,包括复杂性成本和计算成本,但带来的收益在很大程度上超过了成本。
当谈到模型如何用更少的数据学习时,Sebastian Borgeaud表示,模型架构研究就是为了解决这个问题。改进模型架构可以让使用相同数量数据训练的模型获得更好结果,或者用更少的数据达到与之前模型相同的结果。不过,目前模型训练所需的数据量仍然远远超过人类所能接触到的数据量。
对于预训练领域未来的发展方向,Sebastian Borgeaud认为长上下文能力是一个值得关注的方面。Gemini1.5在长上下文能力方面取得巨大飞跃,未来一两年内,不仅会提高长上下文处理的效率,还会进一步扩展模型的上下文长度。同时,注意力机制方面最近取得的一些有趣发现,也将塑造未来的研究方向。
在智能体领域,Sebastian Borgeaud认为视觉感知非常重要,因为模型需要与计算机屏幕进行交互,具备出色的屏幕理解能力是关键。对于“氛围编程”概念,他认为这可能与强化学习规模化和后训练相关,通过大量数据训练,模型能够很好地完成这类任务。
对于行业整体发展趋势,Sebastian Borgeaud提到持续学习是一个核心主题。持续学习是指随着新知识的发现,不断用这些知识更新模型。目前,通过后训练和搜索工具调用,模型可以获取新信息。未来,也许会通过改变训练算法,让模型能够持续地从来自现实世界的数据流中进行学习。
对于希望在人工智能领域有所建树的学生或博士生,Sebastian Borgeaud建议,在进行研究的同时要了解系统层面的知识,理解从硬件到研究层面的整个技术栈,这样能够发现不同层级之间的差距,全面思考研究想法对整个技术栈的影响。他还对检索研究领域充满兴趣,认为随着后训练和强化学习规模化的发展,类似Retro的技术可能会应用于顶尖模型中。
在初创公司发展方面,Sebastian Borgeaud认为,虽然基础模型能力越来越强,训练数据越来越多样化,但初创公司可以观察模型能力的进步趋势,寻找那些进展不大的领域作为研究方向。对于他个人而言,未来一年左右,与众多优秀的人合作,共同见证人工智能领域的快速发展,是一件非常令人兴奋的事情。














