ITBear旗下自媒体矩阵:

ETH苏黎世领衔研发WUSH技术:AI大模型压缩新方案,性能损失近乎为零

   时间:2026-01-06 03:54:35 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能大模型发展迅猛,但其高昂的存储和计算成本如同沉重的包袱,限制了其在更多设备上的应用。为解决这一难题,瑞士ETH苏黎世联邦理工学院、维也纳科学技术研究院以及红帽AI公司联合开展研究,成功开发出一种名为WUSH的AI大模型压缩技术,为模型高效部署带来新曙光。

传统模型压缩方法犹如粗暴的“裁剪”,虽能减少模型体积,却会严重破坏模型性能。以量化技术为例,它试图通过降低数字精度来节省存储空间,但模型中存在少量数值极大或极小的权重和激活值,这些“极端分子”极大地拓展了整体动态范围,导致量化过程效率低下。就像为身高差异巨大的学生定制校服,大部分尺码被少数极端情况占用,无法精细适配大多数普通学生。哈达玛变换虽在一定程度上改善了这一问题,但它采用“一刀切”的方式,不考虑数据具体特征,并非最优方案。

WUSH技术的出现,实现了从“一刀切”到“量身定制”的重大突破。它由权重数据的Cholesky分解(W)、奇异值分解的矩阵成分(U和S)以及经典的Hadamard矩阵(H)巧妙结合而成。该技术引入数据感知的自适应机制,如同经验丰富的私人教练,先评估数据分布特征,再制定个性化处理方案。它分析权重矩阵和激活数据的二阶统计特征,构建非正交变换矩阵,能更精确地调整数据分布,有效整合“极端分子”。同时,WUSH保持块对角结构,使变换操作可并行进行,保证了计算效率,适应不同硬件架构。

研究团队通过严格的数学推导,证明了WUSH在浮点数格式下完全最优,在整数格式下渐近最优。他们将量化误差问题转化为优化数学问题,运用变分法和矩阵分析技术,推导出最小误差点的变换形式。对于浮点数量化,量化误差与信号幅值成正比,最优变换对应WUSH公式;对于整数量化,虽数学分析更复杂,但WUSH仍能达到渐近最优性,尤其适用于高斯分布和拉普拉斯分布的数据。

实验验证环节,研究团队在多种大语言模型上进行了全面测试。在层级损失测试中,以Qwen3 - 8B模型的第18个变换器块为测试对象,使用MXFP4、NVFP4和INT4等量化格式,结果显示WUSH优势显著。对于MXFP4格式,相比传统恒等变换,WUSH能将量化损失减少60%到70%,与优化过的Hadamard变换相比,还能额外减少30%到50%的损失;NVFP4格式下,WUSH和不含Hadamard组件的WUS方法表现相当,优于其他基准方法;INT4格式中,WUSH优势更为突出,某些层量化损失减少高达98%。在端到端测试中,WUSH助力MXFP4格式在Qwen3 - 8B模型上实现平均97.36%的性能恢复率,在Qwen3 - 14B模型上,MXFP4格式与NVFP4格式性能差距缩小至不足0.5%。

WUSH技术的实际应用有明确流程。首先收集权重矩阵和激活数据的二阶矩信息,这些信息可通过标定数据或现有的Hessian矩阵计算得出;接着计算WUSH变换矩阵,涉及矩阵的Cholesky分解和奇异值分解,计算过程可并行;推理阶段,只需对输入激活应用相应变换,计算开销较小。不过,WUSH部署也面临挑战,如为每个块生成专门变换矩阵,增加硬件实现复杂度;每个变换矩阵需额外存储空间。为解决这些问题,研究团队提出将数据感知组件近似为对角矩阵、在相似块间共享变换矩阵等优化策略。

在量化压缩技术领域,WUSH占据独特地位。与需要额外训练或微调的方法不同,它是纯粹的后训练处理技术;与学习式方法相比,它有闭式解,计算成本低且结果稳定;与传统权重专用量化方法相比,它能联合优化权重和激活,实现全局最优。WUSH与先进量化方法如GPTQ结合潜力巨大,GPTQ逐层优化减少量化误差,WUSH可为每层提供更好初始条件,二者协同有望带来更大性能提升。设计联合优化算法虽具挑战,但理论上能进一步改善性能。

尽管WUSH技术表现出色,但仍存在局限。计算复杂度方面,在资源极度受限环境中可能成为瓶颈,研究团队提出将数据感知组件近似为对角矩阵的简化策略;硬件兼容性上,当前深度学习硬件和软件栈主要针对标准矩阵运算优化,WUSH的块专用变换矩阵破坏了重用性,未来可能需要硬件设计相应发展。理论层面,WUSH分析框架目前主要针对特定量化格式和误差模型,需扩展以适应新兴量化方法和特殊应用需求。WUSH与其他优化技术融合、在更多领域的验证以及标准化和工具化也是未来研究方向。

WUSH技术对人工智能发展影响深远。技术上,它降低了部署高性能AI模型的门槛,推动AI从大型服务器向普通设备普及;环境方面,有助于减少AI应用能源消耗;商业领域,可能催生实时AI应用、离线AI服务和隐私保护AI等新商业模式;科研上,其理论框架为量化技术发展奠定基础;教育领域,展示了跨学科合作的重要性,为培养AI研究人才提供示范。这一技术如同给AI模型配备精准“手术刀”,让强大AI助手能在普通设备上快速运行,有望使人工智能成为像电力和互联网一样普及的基础设施。对这项技术感兴趣的读者,可通过论文编号arXiv:2512.00956v1查询完整研究论文。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version