人工智能领域正经历一场静悄悄的范式革命。当图灵奖得主Yann LeCun与Richard Sutton公开质疑大语言模型发展路径时,Transformer架构联合发明人、OpenAI研究员Łukasz Kaiser以全新视角展开回应。这场关于技术路线的争论,折射出AI发展从数据驱动向推理驱动的关键转折。
在硅谷追逐通用人工智能(AGI)的热潮中,OpenAI的Scaling路线引发持续争议。经济学家Tyler Cowen将2025年4月16日定义为"AGI诞生日",但这种乐观预测遭遇多位顶尖学者质疑。强化学习之父Richard Sutton断言现有大模型已触及能力天花板,其改进空间远比行业预期狭窄。开源深度学习框架Keras创始人François Chollet更发起百万美元ARC Prize竞赛,试图引导研究回归"正确路径"。
面对质疑,Łukasz Kaiser提出截然不同的技术演进图景。他指出推理模型正在突破传统训练范式:这类模型所需数据量较前代降低数个数量级,却能在数学推理、代码分析等复杂任务中展现惊人能力。OpenAI首个推理模型o1在结构化任务中的表现,已显著超越通用模型GPT-4o。这种"先思考后回答"的机制,使AI开始具备解决实际问题的能力——从撰写报告到代码审查,从数据库核对到漏洞发现。
技术突破的背后是算力与能源的双重约束。Kaiser坦言,当前所有实验室都面临GPU资源短缺的普遍困境,这解释了奥特曼持续融资的深层动因。但不同于数据瓶颈的不可逆性,他认为算力限制只是阶段性挑战。随着推理模型效率提升,单位算力能支撑更复杂的认知任务,这种技术杠杆效应将重塑AI发展轨迹。
编程领域的变革最具说服力。Claude 3.5发布时在SWE-Bench基准测试中仅取得30%通过率,短短一年后这个数字跃升至75%。现代AI代码模型不仅能理解大型代码库,更能进行跨文件推理、发现隐蔽漏洞。这种指数级进步使开发者开始重新评估人机协作模式——AI不再仅是辅助工具,而是能独立承担复杂项目的生产力引擎。
多模态训练的突破为推理能力注入新维度。通过将音频、图像编码为离散token,神经网络已掌握跨模态生成能力。尽管视频训练面临数据冗余挑战,但Kaiser强调AI需要发展"重点提取"机制,自动识别运动轨迹、因果关系等关键信息。这种对物理世界的理解能力,将成为实用机器人技术的突破口。谷歌Gemini 1.5 Robotics的实验已展示初步成果:结合视觉感知的推理系统,正在让机器人具备"慢思考"与"快反应"的双重能力。
这位波兰裔科学家的人生轨迹颇具戏剧性。16岁时为AGI概念提出者Ben Goertzel编写程序,博士阶段攻读自动机理论,却在谷歌大脑团队期间转向深度学习研究。作为Transformer架构的联合发明人,他先后参与TensorFlow系统开发和Trax库构建,见证了AI从符号推理到神经网络的范式转变。如今他带领团队探索的推理模型,或许正在开启第三个技术纪元。
当行业争论AGI是否到来时,Kaiser更关注技术落地的实质进展。他观察到企业开始将核心业务委托给AI处理,这种信任建立在实际效能而非概念炒作之上。从代码生成到科研辅助,从医疗诊断到金融分析,推理模型正在重塑知识工作的价值链条。这种变革或许比AGI的哲学争论更具现实意义——当机器开始真正"思考",人类与智能的边界注定要重新定义。











