一家名为Subquadratic的迈阿密人工智能初创公司,近日宣称攻克了长期制约大语言模型发展的数学难题。该公司推出的新型模型SubQ,据称在速度、成本和能效方面实现了突破性进展,但这一说法尚未得到业界广泛验证。
传统大语言模型依赖Transformer架构,其核心的稠密注意力机制需要计算所有词元之间的关联,导致计算量随文本长度呈平方级增长。这种特性使得模型处理长文本时成本高昂,且能耗巨大。Subquadratic团队提出用稀疏注意力机制替代稠密注意力,通过动态筛选关键词元组合,将计算量降低至传统方法的极小比例。
公司联合创始人亚历克斯·惠顿解释称,新模型不再强制所有词元建立关联,而是让模型自主判断哪些组合对理解文本更重要。这种动态选择机制使SubQ在保持性能的同时,理论上可将计算效率提升数十倍。第三方评估机构Appen的测试显示,SubQ在编程任务中达到89.7%的准确率,与主流模型持平,而处理速度较采用FlashAttention技术的模型快56倍。
成本优势是Subquadratic重点宣传的卖点。据公司CEO贾斯汀·丹格尔透露,在特定数据检索测试中,SubQ仅花费8美元即完成任务,而竞品模型需消耗2600美元。这种差异源于新模型对硬件资源的更低需求——其1200万词元的上下文窗口容量,远超当前主流模型的100万词元限制。Appen的验证报告指出,SubQ在超长文本检索任务中保持了98%的准确率,展现出处理海量数据的潜力。
尽管测试数据亮眼,但学界对Subquadratic的突破持谨慎态度。独立研究者威尔·德普指出,稀疏注意力并非新概念,此前多个团队尝试均未成功。关键挑战在于如何确保动态筛选不遗漏重要信息,而Subquadratic拒绝透露具体实现方法,仅表示这是其核心技术壁垒。这种保密态度加剧了外界质疑,有评论认为该公司可能过度包装了技术进展。
SubQ目前尚未公开测试,仅有500余家企业注册早期访问。公司承认开发资源有限,无法立即满足所有需求。另一个争议点在于,新模型基于开源模型通义千问的权重进行优化,而非完全从头训练。这种做法虽常见于行业,但与Subquadratic宣称的"彻底革新"存在认知差距。德普认为,现有证据尚不足以证明二次方计算瓶颈已被突破。
面对质疑,惠顿强调团队别无选择:"作为初创公司,我们必须走不同路径才能竞争。"他透露正在开发更高效的训练方法,未来可能完全摆脱对现有模型架构的依赖。Appen研究总监珍妮·西纳南-辛格则表示,即使SubQ最终未能颠覆行业,其技术路径也为优化大语言模型提供了新思路。这场关于AI效率的探索,或许才刚刚开始。











