在AI硬件性能优化的探索中,一项名为“分布式推理”的创新技术引发行业关注。EXO Labs近日宣布,其基于开源框架EXO的混合计算方案成功突破传统硬件限制,通过将英伟达DGX Spark与苹果Mac Studio组合,在AI大语言模型推理测试中实现2.8倍性能提升,为解决“选择高性能AI主机”的难题提供了新思路。
该方案的核心在于EXO框架的异构计算能力。与传统依赖单一GPU或加速器的模式不同,EXO可将推理任务自动拆分至不同硬件设备,形成类似WiFi Mesh网络的“AI Mesh”架构。实验中,两台售价3999美元的DGX Spark(侧重计算性能)与一台搭载M3 Ultra芯片、售价5599美元的Mac Studio(擅长数据带宽)组成统一系统,通过动态分配任务实现性能互补。
具体而言,AI推理过程被划分为两个关键阶段:预填充阶段需处理输入提示,主要受计算性能制约;解码阶段需逐个生成词元,更依赖内存带宽。EXO的调度策略将预填充任务交由DGX Spark执行,其计算速度较Mac Studio快3.8倍;解码任务则由Mac Studio承担,其生成速度比DGX Spark快3.4倍。系统通过实时传输模型内部数据(KV缓存),使两台设备无需等待即可并行工作。
在meta Llama-3.1 8B模型的基准测试中,混合架构的性能优势显著:相较于单独使用Mac Studio,推理速度提升2.8倍。这一成果验证了“计算密集型任务与带宽敏感型任务分离执行”的可行性,为优化硬件资源利用提供了新范式。
值得注意的是,类似设计理念已出现在行业巨头的技术路线中。英伟达新一代Rubin CPX平台采用类似架构:计算密集的上下文构建由Rubin CPX处理器完成,而配备高带宽HBM3e内存的标准Rubin芯片负责解码。这种跨厂商的技术趋同,凸显了分布式推理在AI算力扩展中的潜力。
尽管EXO 1.0目前仍处于早期实验阶段(开源版本0.0.15-alpha发布于2025年3月),但其演示表明,通过智能调度异构硬件资源,无需依赖大型数据中心即可显著提升AI性能。未来版本计划引入自动调度、KV流式传输等优化功能,进一步降低混合计算的使用门槛。不过,该技术目前仍属研究级工具,尚未面向普通消费者开放。