一项名为PRISM的新模型架构在机器学习领域引发关注,其核心创新在于将传统Transformer的无限记忆容量转化为高效可控的有限状态更新机制。这项被ICML 2026会议录用的研究,通过数学重构实现了线性复杂度模型在保持并行计算优势的同时,突破了信息压缩导致的性能瓶颈。
传统线性注意力模型采用rank-1更新规则,每个新token仅能对记忆矩阵进行单行修改。这种设计虽降低了计算复杂度,却导致语义信息在压缩过程中不可逆丢失。研究团队通过分析发现,现有最优模型TTT-MLP虽通过多步梯度下降提升了表达能力,但其串行计算特性使得训练效率下降达174倍,严重制约了实际应用价值。
PRISM架构的突破性在于重构了状态更新范式。研究人员将TTT-MLP的迭代过程解构为步长控制、残差连接和方向更新三个核心要素,通过引入局部锚点(anchor)机制实现token间并行计算。具体而言,每个token的L步更新被转化为基于初始状态的闭合式计算,使得整个梯度下降过程可编译为单次矩阵运算,数据搬运次数减少至传统方法的1/L。
在技术实现层面,该架构创新性地融合了短卷积和低秩分解技术。短卷积窗口负责捕捉局部上下文特征,而低秩旁路网络则对初始rank-1更新进行非线性修正。这种设计既保证了线性复杂度,又使模型具备多维度信息处理能力。实验数据显示,在Amazon序列推荐基准测试中,PRISM在保持与Transformer相当精度的同时,计算效率较TTT-MLP提升两个数量级。
语言建模实验进一步验证了架构的有效性。基于SlimPajama数据集的130M参数模型显示,PRISM在WikiText困惑度、LAMBADA推理准确率等9项零样本迁移任务中均取得最优表现,较基线模型GDN提升3.2个百分点。特别值得注意的是,当关闭多步修正机制(L=1)时,模型训练困惑度几乎不变,但下游任务准确率下降2.9%,这证实了rank-L更新在长程依赖建模中的关键作用。
该研究对混合架构设计也提出了新见解。分析表明,短卷积锚点在处理超过3-4个token的长程依赖时会出现精度衰减。为此,研究人员建议在PRISM层间插入少量Transformer模块,利用全局注意力机制补偿局部近似的误差。这种设计思路为开发更高效的混合模型提供了理论依据。
在参数效率方面,PRISM展现出独特优势。其非线性修正模块仅增加原模型9.7%的参数量,且训练阶段无需额外数据搬运。这种特性使其天然适用于模型微调场景,研究人员已初步验证通过冻结基础迭代过程、仅训练低秩旁路的方式,可在不损害预训练知识的前提下实现高效迁移学习。











