在人工智能领域,一场关于通用人工智能(AGI)发展路径的激烈讨论正持续升温。斯坦福大学博士后、即将赴清华大学担任助理教授的刘子鸣,将批判的矛头指向了当下占据主导地位的Scaling Law,为AGI的发展提出了全新思路。
Scaling Law在过去数年中成为AI界的“黄金法则”,它揭示了模型性能与模型规模、数据量、计算量之间的幂律关系。简单来说,当模型参数、训练数据和算力不断增加时,模型性能会持续提升。这种“大力出奇迹”的方式,让大模型在诸多任务上取得了显著进展,但刘子鸣认为,这背后隐藏着严重问题。
刘子鸣指出,Scaling Law本质上是用无限资源换取伪智能。如今的大模型,更像是依靠无限算力和数据进行穷举,所获得的只是看起来聪明的假智能。真正的AGI应当像物理学定律一样,以简洁的“结构”驾驭无限世界。他直言,要聪明地创造AGI,缺乏的不是规模,而是结构。
在他看来,Scaling Law虽然提供了可靠的发展路径,但却是低效的。其背后的逻辑简单粗暴:由于AI在分布外任务上表现不佳,最直接的解决办法就是收集更多数据、训练更大模型,使所有任务都变为“分布内”。然而,现实世界并非如此理想,算力、能源和高质量数据都是有限的。当这些资源耗尽时,Scaling Law的发展道路也将走到尽头。
为了说明结构的重要性,刘子鸣以多个例子进行阐述。以雪花为例,若允许分形结构,雪花的内在复杂度极低,是高度可压缩的;但若不允许结构、必须逐点描述,其表观复杂度则几乎无限。今天的Scaling Law就如同后者,用越来越多的参数和计算去拟合巨大的表观复杂度。再看天体力学,对行星运动建模最直接的方法是存储行星在每个时刻的位置,成本高昂。但开普勒发现行星轨道是椭圆,实现了第一次压缩;牛顿发现局部动力学定律,完成了第二次压缩,用更少参数解释了更多现象。相比之下,现代AI在结构学习上还有很大差距。Keyon Vafa和合作者的研究表明,Transformer并不会自然地学出牛顿式的世界模型,这意味着正确的物理结构不会因模型规模扩大而自动涌现。
刘子鸣认为,AI发展在很大程度上仍处于“第谷时代”,以实验和数据驱动;刚刚进入“开普勒式阶段”,出现Scaling Law这样的经验规律。但问题在于,人们将经验规律奉为信条,选择激进Scaling、围绕其做工程化系统,而非将其作为通往更深理论的线索,这从思想层面看可能是一种退步。
刘子鸣并非否定基础模型,而是主张从“压缩”角度理解不同任务。他将任务大致分为三类:类物理任务,高度可压缩,符号公式可能从连续数据中涌现;类化学任务,可压缩性强、结构清晰,但符号不完整或只能近似;类生物任务,只能弱压缩,更多依赖经验规律与统计归纳。理想的智能系统应能判断任务类型并施加恰当压缩。
符号模型擅长类物理任务,但在类化学与类生物任务上表现不佳;联结主义模型虽原则上可处理所有类型,但因缺乏结构,在类物理与类化学问题上效率极低。因此,刘子鸣主张结构主义AI,它既不同于联结主义,也不同于符号主义,更不是两者的简单结合。结构主义旨在捕捉类化学任务这一中间状态,期望符号从结构中涌现,经验规律通过从数据中松弛结构而习得。
在监督学习中,线性回归是符号主义的,多层感知机(MLP)是联结主义的,方程学习器(EQL)是神经 - 符号混合,而Kolmogorov–Arnold Networks(KANs)则是结构主义的。KAN背后的表示理论能紧凑捕捉多变量函数的组合结构,既不像MLP无结构,也不像线性模型过度约束,避免了神经 - 符号不匹配带来的不稳定性。
刘子鸣还指出,抽象可能是AGI最核心的瓶颈之一。抽象来自对结构的比较与复用,而当下的注意力机制虽也是一种比较机制,但隐含了强假设,很多结构并不与向量空间同构,这种表示方式更多是为适配GPU计算范式。目前AI发展虽“暗地里”有结构主义倾向,如推理过程和AI智能体框架是结构化的,但底层模型仍是联结主义的,导致系统高度依赖Chain - of - Thought(思维链,CoT)数据,通过显式监督将结构“贴”在模型外面。
刘子鸣认为,下一波关键进展将来自内在结构主义,即把通用结构注入模型或让结构在模型内部自行涌现,而非持续依赖显式CoT监督。从应用角度看,真正需要的通用人工智能必须具备可适应、可泛化、具备物理基础等特点,而结构对这些都至关重要。物理世界本身高度结构化和可压缩,若模型无法出现这些结构,“世界模型”将遥不可及。结构主义AI代表了一条与Scaling Law根本不同的道路,虽可能更难,但更具趣味性和发展潜力。











