在人工智能领域,Transformer架构曾被视为革命性突破,但如今其核心发明者之一Llion Jones发出警告:过度依赖现有架构可能阻碍通用人工智能(AGI)的真正突破。这位Sakana AI创始人指出,当前学术界和产业界对Transformer的微调研究,可能重蹈循环神经网络(RNN)被迅速取代的覆辙。
Jones以RNN的兴衰史为例说明技术迭代的残酷性。在Transformer出现前,RNN占据主导地位长达数年,研究者们不断优化其门控单元位置或语言建模性能,但这些局部改进最终被Transformer彻底颠覆。他直言:"当新架构带来数量级差异时,所有微调工作都会显得毫无意义。"这种担忧正源于他对当前研究生态的观察——论文普遍聚焦于调整归一化层位置或改进训练技巧,而非探索根本性创新。
这种研究范式被Jones称为"架构彩票"陷阱。他援引2020年提出的"硬件彩票"理论指出,Transformer的胜利本质上是契合了当时GPU计算生态的偶然结果。尽管已有研究证明某些新架构在特定任务上表现更优,但整个行业仍难以放弃Transformer,因为其配套工具链和训练方法已高度成熟。这种路径依赖形成强大的"重力井",使得任何新架构都需要达到"碾压式优势"才能获得关注。
当前大语言模型(LLM)的局限性进一步印证了Jones的判断。他指出这些模型呈现出"锯齿状智能"特征:既能解决博士级难题,又会犯下小学生级别的错误。这种矛盾暴露了现有架构的根本缺陷——将所有功能强行塞入单一框架,而非通过架构创新实现更自然的知识表示。"我们像在给瑞士军刀添加新工具,却从未思考是否需要重新设计工具本身。"Jones比喻道。
为突破这种循环,Jones团队转向生物启发的研究路径。他们开发的连续思维机(CTM)模拟大脑神经元的同步振荡机制,通过神经动态表示实现渐进式计算。这种设计并非追求完全生物学还原,而是借鉴其核心信息传递方式。研究团队特意避开学术圈常见的"抢发压力",用充足时间完善对照实验,希望为高风险探索树立典范。
这场范式转移之争正引发行业深层反思。OpenAI前首席科学家Ilya Sutskever近期也表示,单纯扩大现有架构规模不足以实现AGI。但挑战在于,在真正突破出现前,任何局部改进都可能被视为必要探索。Jones承认这种困境:"就像RNN研究者直到Transformer出现才意识到自己陷入死胡同,我们现在同样无法预知下一个范式转移何时到来。"
当前研究格局呈现出矛盾图景:一方面,混合专家模型、注意力机制变体等改进持续涌现;另一方面,少数研究者开始探索神经形态计算、世界模型等全新方向。这种分化折射出AI发展的关键转折点——当技术积累达到临界点时,行业必须抉择是继续优化现有路径,还是冒险开辟未知领域。Jones的警告恰似一记警钟:在追求AGI的竞赛中,最危险的陷阱或许正是我们当前最依赖的"成功经验"。











