ITBear旗下自媒体矩阵:

工程师独立开发!DSpark技术成功移植苹果芯片,Mac大模型速度质量双提升

   时间:2026-07-04 00:54:39 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

开源社区再传捷报,DSpark技术迎来苹果芯片原生版本。工程师Abdur Rahim在业余时间独立完成移植工作,将这套原本为数据中心GPU设计的加速框架成功适配至Mac平台,推出mlx-dspark项目。该版本在保持输出精度的前提下,使Gemma-4 12B和Qwen3-4B两个模型的生成速度分别提升1.6倍和1.4倍。

与传统移植方案不同,Rahim的版本实现了输出与原始模型逐字节完全一致。这项突破源于他对DSpark核心机制的深度优化:通过为每个目标模型配备小型辅助模型,先由辅助模型生成候选词,再由主模型进行批量验证。在苹果芯片架构下,这种设计面临特殊挑战——每增加一个候选词验证,处理时间就会线性增长。经实测,Gemma-4 12B模型每多验证一个token需额外消耗14毫秒。

技术实现层面,Rahim采用多重优化策略。他将辅助模型权重压缩至4-bit量化,内存占用仅1.8GB,同时保持无损运行。主模型则维持在8-bit精度,经测试发现提升精度至bf16会导致验证成本激增,反而降低整体效率。在MLX框架重构的解码流程中,严格复现了论文中描述的温度采样方法,通过残差重采样机制确保输出分布与原始模型完全吻合。

性能对比数据显示,在M4 Pro芯片上,Gemma-4 12B的生成速度从18.4tok/s提升至30tok/s,Qwen3-4B从52.9tok/s增至73tok/s。更关键的是,16%-18%的接受率提升指标在端侧设备得到完整复现。当使用指令微调版主模型时,候选词通过率从基础版的47%跃升至82%,验证了模型匹配度对效率的关键影响。

开源生态的活力在该项目中充分显现。DFlash团队核心成员Jian Chen主动提出合作请求后,Rahim迅速完成技术整合。这个由UCSD助理教授Zhijian Liu团队提出的并行解码方案,采用块扩散技术每次处理16个token。在代码生成场景中,DFlash展现出2.1倍加速优势,接受长度达5.95-6.20个token。但面对开放聊天场景时,其固定块长设计导致实际接受率下降,效率优势减弱。

最新发布的mlx-dspark v0.0.3版本实现技术融合,用户可通过参数动态调整DFlash的有效块长度。在对话场景自动切换短块模式,在代码/数学任务保持完整16token处理,使单台Mac设备即可兼顾不同场景需求。开发者透露,该框架已具备支持Qwen3-8B/14B等更大模型的能力,相关验证工作正在进行中。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version