“我语言的局限,即意味着我世界的局限。”哲学家维特根斯坦百年前写下的这句话,如今正成为人工智能领域探讨大语言模型发展瓶颈的关键注脚。当AI的“语言”被限定为离散token序列,其认知与能力边界也被同步框定,这一困境让学界与产业界开始重新审视大语言模型能否通向通用人工智能(AGI)的终极目标。
2024年,OpenAI前首席科学家伊利亚·苏茨克维尔在NeurIPS大会上抛出“预训练即将终结”的论断;2026年,图灵奖得主杨立昆(Yann LeCun)离开meta创办AMI Labs,直言“大语言模型路线错误”。两位深度学习领域的标志性人物,一位试图颠覆自己开启的预训练时代,另一位则押注世界模型路线,试图为AI寻找新的突破口。尽管当前大语言模型的用户规模与商业价值持续攀升,但技术路径的天花板已清晰可见——离散token的建模方式,或许正是横亘在通往AGI道路上的关键障碍。
2026年5月,麻省理工学院何恺明团队与字节跳动Seed实验室几乎同步发布研究成果,为打破这一困境提供了实验依据。两篇论文共同指向一个核心结论:语言生成的核心过程无需始终困于离散token空间,转而通过连续嵌入(embedding)或潜在空间(latent space)完成建模,最终再映射回文本,这种范式转换可能带来更高的效率与更广阔的探索空间。何恺明团队的ELF模型仅用32步采样便超越传统离散模型1024步的生成质量,且训练数据量仅为后者的十分之一;字节跳动的Cola DLM则通过纯语义空间的流匹配(Flow Matching)技术,在参数规模与数据量显著低于主流模型的情况下,展现出健康的扩展性曲线。这些成果表明,逐token预测或许只是通向AGI的局部最优解,而连续空间范式可能打开新的可能性。
人类认知的连续性为这一技术转向提供了理论支撑。大脑的认知活动本质上是连续的、并行的、高维的,例如想到“苹果”时,激活的是涉及颜色、质感、重量等多维感官的神经网络,而非“苹果”二字的离散符号。语言作为进化中的“有损压缩协议”,将复杂的连续体验压缩为符号序列,本质上是跨脑传输的工程妥协。当前主流的自回归大模型,正是在这种压缩后的输出格式上建模,其擅长模拟人类语言行为,却难以理解世界运作的底层逻辑——身体感受、空间直觉、因果推理等未被语言编码的维度,始终游离于训练数据之外,成为token范式无法触及的“黑暗大陆”。
科技巨头的战略调整进一步印证了这一趋势。谷歌是最早布局“原生多模态统一”的先行者,其Gemini系列模型从训练阶段便融合文本、图像、音频、视频等多种模态,共享注意力机制,并构建统一的3072维向量空间,试图消除模态间的边界。OpenAI的路径则更为曲折:从GPT-4V的拼接式架构到GPT-5系列强化多模态推理,其虽未完全披露技术细节,但砍掉视频应用、聚焦Agent架构与代码工具的决策,暗示其对高效架构的等待与探索。字节跳动Seed团队则明确提出“离散文本与连续模态统一建模”的路径,其视频生成模型Seedance系列已采用类似架构,依托抖音/TikTok的海量视频数据与前沿研究能力,成为工业级验证连续空间范式的潜在领跑者。相比之下,Anthropic选择回避多模态生成,将资源集中于文本推理与代码执行,虽在商业上取得成功,却可能因技术债积累在未来的竞争中陷入被动。
独立研究者的探索更为激进。苏茨克维尔创办的SSI公司,在无产品、无论文的情况下凭借“下一个范式”的判断力获得20亿美元融资;杨立昆的AMI Labs则延续JEPA路线,强调在抽象空间中预测物理后果,而非生成逼真输出。两者的共识在于:自回归机制的本质是字符级统计复现,参数量的增加无法弥补其结构性缺陷,真正的理解需要从“生成”转向“预测”。
技术范式的转型必将引发产业链的连锁反应。以视频tokenizer为核心业务的公司首当其冲——当语言生成迁移至连续空间,视频等连续数据的离散编码将失去必要性,视觉表征的研究重点将转向如何高效压缩同时保留物理、时序与语义结构。多模态能力也可能从差异化卖点变为基础模型的默认配置,模态桥接与对齐的中间层产品将面临生存危机。更深远的影响在于商业模式:当前按token收费的体系依赖于自回归模型透明的成本结构,而连续空间中的扩散模型可能通过固定步数生成任意长度文本,使“token消耗”与算力成本脱钩,迫使行业重新定义AI的价值衡量标准。
尽管连续空间范式展现出突破token天花板的潜力,但其训练数据仍源于人类生成的有损压缩内容,这成为通向AGI的另一重限制。若模型摆脱语言压缩的束缚,新的训练信号从何而来?答案或许指向主动探索——让AI在世界中行动、承受后果、从反馈中学习,即递归自我改进(RSI)。这一命题,将成为下一阶段技术竞争的核心焦点。










