ITBear旗下自媒体矩阵:

OpenAI开源新稀疏模型:99.9%权重为零,或为AI可解释性带来新突破

   时间:2025-12-14 18:27:34 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

OpenAI近期低调开源了一款参数规模仅0.4B的新型大语言模型,其核心创新在于采用Circuit Sparsity技术,通过将99.9%的权重强制归零,构建出具备可解释性的稀疏计算架构。这种设计突破了传统Transformer模型"黑箱"决策的局限,使AI的推理过程能够像电路图般被逐层拆解分析。

传统大模型依赖稠密连接架构,神经元间形成错综复杂的网络,导致决策路径难以追踪。以GPT-2为基础架构的Circuit Sparsity模型则反其道而行之,在训练阶段通过L0范数约束,将无效连接彻底切断,仅保留千分之一的有效通路。这种原生稀疏设计使信息传递路径高度固定化,每个任务都能形成独立的最小功能电路。

实验数据显示,在预训练损失相当的条件下,稀疏模型的任务专属电路规模仅为稠密模型的1/16。以Python引号闭合任务为例,其核心电路仅需2个MLP神经元和1个注意力头,包含引号检测器、类型分类器等模块,各组件功能高度专一化。这种"模块化"设计确保了每个节点的必要性——移除任意组件都会导致任务失败。

该技术对当前主流的混合专家模型(MoE)构成直接挑战。MoE通过门控网络将模型拆分为多个专家子网络,依赖路由器分配任务。但这种近似稀疏的设计存在显著缺陷:专家间特征流形割裂导致知识冗余,功能边界模糊使得协同机制复杂,需依赖负载均衡函数维持稳定。相比之下,Circuit Sparsity通过超高维度特征投射与严格节点激活限制,从根源上解决了概念分散问题,无需依赖路由器即可避免信息干扰。

然而这种创新架构面临严峻的算力挑战。其训练与推理计算量较稠密模型高出2-3个数量级,当前性能尚无法比肩顶尖大模型。相比之下,MoE架构在算力效率与性能平衡方面已形成成熟方案,短期内仍将是工业界主流选择。研究人员正探索两种优化路径:一是从现有稠密模型中提取稀疏电路以降低成本,二是改进训练机制以提升原生稀疏模型的效率。

该技术开源后引发学界热议。支持者认为其通过物理可解释性重构了AI基础架构,为模型审计提供了新范式;批评者则指出,当前实现方式在复杂任务处理上仍显乏力。技术文档显示,研究团队正尝试将技术扩展至更大规模模型,重点攻关多步推理电路的构建方法。相关代码与论文已在OpenAI官方平台公开,学术界正围绕其可扩展性展开激烈讨论。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version