苹果公司近日在机器学习研究领域公布了一项重要进展,其最新发布的M5芯片在本地大语言模型(LLM)运行性能上实现显著突破。这项成果通过苹果自主研发的开源框架MLX进行验证,该框架专为Apple Silicon设计,依托统一内存架构实现CPU与GPU的高效协同,为模型运行提供硬件级支持。
在针对多款开源大模型的基准测试中,M5芯片展现出超越前代的运算能力。测试选用不同参数规模的Qwen系列模型和GPT OSS模型,通过MLX LM工具包进行核心文本生成任务评估。数据显示,M5在生成后续文本token时的速度较M4提升19%至27%,这一优势主要源于内存带宽的显著提升——M5的153GB/s带宽较M4的120GB/s增加28%,有效解决了内存密集型任务的性能瓶颈。
研究团队详细解析了LLM推理过程中的双阶段负载特性:首个token生成主要受限于计算单元的算力,而后续token的持续输出则高度依赖内存传输效率。这种特性使得M5的内存带宽优势在长文本生成场景中尤为突出。实测数据显示,配备24GB内存的MacBook Pro可流畅运行参数规模达300亿的4-bit量化混合专家模型(MoE),推理内存占用控制在18GB以内。
具体到不同模型的性能表现,测试数据呈现差异化特征:Qwen3-1.7B模型在首个token生成耗时3.57秒,后续token生成速度达1.27个/秒;参数规模扩展至8B的4-bit量化版本,在内存占用显著降低至5.61GB的同时,仍保持1.24个/秒的后续生成速度;更大规模的gpt-oss-20b模型则展现出3.33秒的首token生成时间和1.24个/秒的持续输出能力。
除文本处理领域的突破外,M5芯片在视觉计算方面同样实现跨越式发展。其集成的全新GPU神经加速器专门优化了矩阵乘法运算——这是机器学习负载的核心算子。这项硬件革新使图像生成任务的处理速度达到M4芯片的3.8倍以上,为创意设计、内容生成等视觉AI应用提供了更强大的硬件支撑,标志着苹果在多模态AI计算领域迈出关键一步。











