Google工程副总裁、Gemini模型联合负责人Noam Shazeer在社交平台宣布,自己将离开工作多年的Google,加入OpenAI担任架构研究负责人。这一消息引发AI领域广泛关注,因为Shazeer是《Attention Is All You Need》的核心作者之一,也是最早提出Transformer架构的“八人团队”成员。从GPT到Claude,从Gemini到主流大模型,Transformer已成为现代AI的基石,而Shazeer正是定义这一底层结构的关键人物之一。
Shazeer的职业生涯与Google有着复杂的“分合”历史。2000年,他作为早期软件工程师加入Google,参与改进搜索拼写纠错系统。2009年,他短暂离开公司,后于2012年回归,转向AI研究领域。2017年,他与Ashish Vaswani等人共同提出Transformer架构,彻底改变了AI发展轨迹。2021年,因Google拒绝发布其参与开发的聊天机器人Meena,Shazeer与同事Daniel De Freitas离开公司,创办Character.AI。2024年,Google通过约27亿美元的技术授权和人才交易,将Shazeer及部分Character.AI团队重新招揽至DeepMind,让他参与Gemini模型研发。然而,不到两年后,这位Gemini联合负责人再次选择离开,转投OpenAI。
Shazeer的离开对Google而言是重大损失。他不仅在Transformer架构中扮演关键角色,还推动了稀疏混合专家模型(MoE)的发展——这种技术通过动态调用不同“专家”模块,在扩大模型容量的同时控制计算成本,成为大模型效率优化的重要方向。他早年对聊天机器人的判断也得到验证:2022年ChatGPT的爆发证明,对话式AI可能成为普通人接触AI的主要入口。而Google当年拒绝发布的Meena路线,最终以昂贵的方式回归公司。
OpenAI首席研究官Mark Chen表示,Shazeer的加入将聚焦前沿模型架构研究。当前,大模型行业正面临关键转折点:单纯扩大预训练规模的边际收益逐渐下降,Transformer的局限性日益显现。例如,模型虽能处理长上下文,但难以维护稳定的内部状态;思维链技术虽能提升推理能力,却依赖昂贵的显式计算。Google DeepMind近期论文指出,纯前馈Transformer在动态状态追踪上存在结构性短板,更像是在“翻笔记”而非拥有持续更新的记忆。这些挑战促使行业重新思考底层架构,寻找更高效的组织计算、维护状态和更新世界表示的方法。
Shazeer的跳槽被视为“寻找Transformer之后下一步”的标志性事件。他不仅拥有Transformer和MoE的核心经验,还具备大规模训练、高效解码和基础模型工程的稀缺能力。在Google期间,他积累了超大规模系统架构的直觉,这种能力对前沿模型研发至关重要——从小规模实验到大规模训练的转化过程中,许多改进在小模型上有效,但在最大规模训练时可能失效,需要极强的判断力来优化系统。









