“我语言的局限,即意味着我世界的局限。”哲学家维特根斯坦百年前写下这句话时,讨论的是人类认知的边界。如今,这句话精准描述了大语言模型面临的深层困境——当AI的“语言”仅限于离散token序列,其“世界”便被困在符号表达的有限范围内。这一结构性矛盾,正引发科技界对大语言模型能否通往通用人工智能(AGI)的激烈争论。
2024年,OpenAI前首席科学家伊尔亚·苏茨克维在NeurIPS大会上抛出重磅观点:“预训练时代即将终结。”两年后,图灵奖得主杨立昆离开meta创办AMI Labs,直言“大语言模型路线是错误的”。两位深度学习领域的标志性人物,一位选择颠覆自己开启的预训练范式,另一位坚持世界模型路线,共同指向一个核心问题:当前技术路径存在难以突破的天花板,而这个天花板恰好横亘在通往AGI的道路上。
商业成就与技术瓶颈形成鲜明对比。大模型用户规模持续扩张,产业价值不断攀升,但技术专家指出,这并不代表路径的正确性。麻省理工学院何恺明团队与字节跳动Seed实验室在2026年5月同步发布的论文,提供了关键实验证据:语言生成的核心过程不必局限于离散token空间,连续embedding或latent空间可能代表更优解。这种范式转换或许能打开通往更高天花板的通道。
人类认知的连续性特性为技术突破提供理论依据。大脑处理信息时激活的是感觉皮层的连续活动模式,而非离散符号。例如想到“苹果”时,视觉、触觉、味觉等维度同时涌现,语言仅是这种复杂体验的有损压缩。当前主流自回归模型在压缩后的符号序列上建模,虽能模拟语言行为,却无法理解世界运作机制。身体感受、空间直觉、因果推理等隐藏维度,因未被编码进训练数据而成为不可触及的“黑暗大陆”。
学术界率先发起“逃逸”实验。何恺明团队提出的ELF模型颠覆传统架构,将文字生成全过程置于连续向量空间,仅在最终步骤映射回文本。该模型用32个采样步生成的质量超越离散模型1024步的结果,且训练数据量仅为同类方法的十分之一。字节跳动的Cola DLM则通过Text VAE将语言压缩至语义潜空间,用扩散过程建模全局先验,在20亿参数规模下展现出健康的扩展曲线。两篇论文共同证明:连续空间建模可实现更高效、更经济的语言生成。
科技巨头的战略调整印证行业趋势。谷歌Gemini系列坚持原生多模态训练,文本、图像、音频在共享注意力层中交错处理,其Embedding 2模型将所有模态映射至统一向量空间。OpenAI虽在GPT-5中强化多模态能力,但被曝砍掉视频应用Sora,将算力集中于Agent架构与代码工具开发,暗示其在等待更高效的架构方案。字节跳动则凭借抖音/TikTok的海量视频数据,在连续潜空间架构上展开工业级验证。
独立研究者的选择折射技术路线分歧。苏茨克维创办的SSI公司获20亿美元融资,却未公布任何产品细节,投资人看中的是其对“下一个范式”的判断力。杨立昆的AMI Labs押注JEPA路线,强调在抽象空间预测物理后果而非生成逼真输出,认为“参数扩张无法解决因果建模的结构性缺陷”。这种分歧揭示:行业正从数据驱动转向认知驱动,从统计复现转向世界理解。
技术变革引发产业链重构。视频tokenizer公司面临生存危机,VQ-VAE、MAGVIT等技术若无法证明连续表征的必要性,将失去核心价值。多模态能力从差异化卖点变为基础配置,模态桥接中间层产品的市场空间急剧收缩。更深远的影响在于商业模式——当扩散模型用固定步数生成任意长度文本,按token计费的传统将失去合理性,行业亟需新的定价体系。
通往AGI的道路仍充满未知。连续空间建模虽突破语言压缩的桎梏,但训练信号仍来自人类生成的有损数据。杨立昆与苏茨克维或许已意识到,真正的突破需要模型主动探索世界:通过物理交互获取反馈,在行动-后果的循环中实现递归自我改进。这种能力,将成为下一阶段竞争的关键变量。









