ITBear旗下自媒体矩阵:

加州大学圣地亚哥分校用动力系统理论破解AI循环架构训练难题

   时间:2026-04-23 22:44:19 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

加州大学圣地亚哥分校与Together AI联合团队在机器学习领域取得重要突破,其研究成果以论文形式发表于arXiv平台,编号为arXiv:2604.12946v1。该研究聚焦于如何在不增加模型参数规模的前提下提升AI性能,提出了一种名为Parcae的新型循环架构,为资源受限场景下的AI部署提供了创新解决方案。

传统AI模型发展路径依赖参数量的指数级增长,类似通过扩建厨房来提升烹饪能力。但这种模式在移动端、边缘设备等场景面临内存与算力瓶颈。研究团队反其道而行之,通过让神经网络层循环处理数据,实现"深度翻炒"而非"规模堆砌"。这种循环架构虽非全新概念,但此前因训练稳定性问题难以实用化——模型常出现类似锅底烧穿的"残差状态爆炸"现象。

研究团队借助工程控制领域的线性时不变系统理论,构建了信息流分析框架。他们发现循环层中的状态转移矩阵A若谱范数大于1,会导致信息在每次循环中被持续放大,最终引发系统崩溃。此前主流的"加法注入"方法因矩阵A为单位矩阵,恰好处于临界不稳定状态;而"拼接投影"方法则因矩阵A缺乏约束,稳定性完全依赖训练运气。

Parcae架构通过三大创新设计解决稳定性难题:首先将状态转移矩阵A设计为负对角矩阵的离散化形式,从数学层面确保谱范数严格小于1;其次引入输入归一化层,防止异常数值冲击系统;最后采用逐序列深度采样技术,允许同一批次内不同序列使用不同循环次数,提升训练效率。这些设计使模型在1.3B参数规模下仍能保持稳定训练,彻底解决了此前循环架构的崩溃问题。

实验数据显示,在100M和350M参数规模下,Parcae相比同类循环架构RDM,验证集困惑度分别降低6.2%和6.3%,在多个常识推理任务上准确率提升约1.8个百分点。更引人注目的是,770M参数的Parcae模型在综合基准测试中达到与1.3B参数Transformer相当的性能,参数效率提升幅度达23.3%至87.5%。

研究团队进一步探索了计算资源的优化分配策略。通过系统训练不同循环次数与数据量组合的模型,发现存在最优循环次数使验证损失最小化。拟合结果显示,最优循环次数随计算预算增长呈0.40次方规律,而最优数据量增长呈0.77次方规律。这一发现为模型训练提供了可预测的扩展公式,可提前规划资源分配。

在测试阶段,Parcae展现出独特的"越想越准"特性。随着循环次数增加,模型性能呈指数衰减趋势提升,最终趋近于训练时最大循环次数决定的性能下界。研究团队提出的统一预测方程,能准确描述训练扩展规律与测试衰减规律的联合作用,在140M和370M参数规模下的预测误差分别低至0.85%和1.31%。

尽管研究在中小规模模型上验证了有效性,但团队坦言尚未在更大规模模型上测试扩展规律。未来研究方向包括探索更复杂的矩阵参数化形式、优化循环更新规则,以及解决推理延迟问题。这项融合控制理论与深度学习的创新研究,为资源受限场景下的AI部署开辟了新路径,证明通过改进计算方式而非单纯扩大规模,同样能实现性能突破。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version