国庆假期期间,人工智能领域关于大语言模型(LLMs)的学术讨论持续升温。图灵奖得主、强化学习先驱理查德·萨顿(Richard Sutton)在近期访谈中抛出争议性观点,直言当前主流的LLMs技术路线是"死胡同"。这位被誉为"强化学习之父"的学者指出,基于海量人类文本数据训练的模型缺乏自主认知能力,本质上只是对人类知识的统计拟合,而非真正理解世界。
萨顿的核心批判直指模型学习机制的根本缺陷。他强调,现有技术路线依赖的预训练数据存在两个致命问题:其一,所有训练数据均由人类生成,存在天然的认知边界;其二,人类创造的数据总量有限,终将面临耗尽危机。更严峻的是,这种学习方式会不可避免地继承人类认知偏见,导致模型难以突破既有知识框架。作为"苦涩教训"理论的提出者,萨顿此次的自我反思引发学界震动——研究者们奉为圭臬的缩放定律(Scaling Laws),竟被理论创始人质疑是否符合其核心思想。
萨顿提出的替代方案带有鲜明的古典主义色彩。他重申艾伦·图灵1950年提出的"儿童机器"构想,主张构建能通过环境交互自主学习的智能体。这种架构摒弃预训练阶段,转而依靠强化学习实现持续进化。其奖励机制融合环境反馈与内在动机,包括好奇心驱动、预测误差最小化等生物本能。萨顿特别以AlphaZero为例,强调该系统通过纯自我对弈战胜人类知识初始化的AlphaGo,证明脱离人类数据依赖的可行性。
在卡帕西看来,预训练技术本质上是"拙劣的进化模拟"。通过互联网文本积累的软约束,虽无法完全替代生物进化的精密性,却为数十亿参数的神经网络提供了可行的冷启动方案。这种折中方案恰是当前最先进模型的工作范式:先用海量文本构建基础认知,再通过强化学习进行行为修正。卡帕西将此类模型比作"智能幽灵",认为它们是统计规律与人类知识的混合产物,虽不完美却具备实用价值。
这场学术交锋揭示了AI发展的两条路径分歧。萨顿代表的理想主义阵营追求构建能自主探索世界的智能体,其理论根基在于生物智能的进化逻辑;卡帕西领衔的实用主义派则主张利用现有数据资源构建可用系统,通过工程手段弥补先天不足。两种路线并非完全对立,卡帕西就提出"幽灵"与"动物"可能存在演化衔接点——随着技术进步,当前模型或能通过持续学习逐渐接近自主智能。
值得注意的是,卡帕西特别强调生物智能对AI研究的启示价值。他列举内在动机、多智能体博弈、文化演化等尚未被充分挖掘的生物机制,认为这些领域可能孕育下一代技术突破。这场关于模型本质的辩论,实质上反映了AI研究在数据依赖与自主进化之间的战略抉择,其结果或将决定未来十年技术发展的核心方向。