谷歌近日推出了一款名为DiffusionGemma的开放AI模型,该模型基于文本扩散机制构建,在本地推理速度上实现了显著提升。相较于当前主流的自回归模型架构,DiffusionGemma在本地计算环境中的效率提高了四倍,为低带宽场景下的应用提供了新的可能性。
自回归模型,如GPT和Gemini等,采用从左到右逐个生成Tokens的方式,在云端批处理场景中表现优异。然而,这种架构在本地推理时容易受到内存带宽限制,导致计算资源浪费。而扩散模型则通过从噪声中逐步去噪的方式生成输出,能够并行处理所有Tokens,从而在本地环境中展现出更高的推理效率。
DiffusionGemma在开源方面采用了Apache 2.0许可证,用户可以自由地从Hugging Face平台下载模型权重。其性能表现与Gemma 4系列其他模型相当,但在推理效率上具有明显优势。该模型支持迭代优化功能,能够在生成过程中主动纠正错误,确保输出结果的稳定性和一致性。采样速度达到每秒1479个Tokens,开销仅0.84秒,显著提升了生成效率。
在具体性能指标上,DiffusionGemma在代码生成任务中表现突出。LiveCodeBench测试得分30.9%,BigCodeBench得分45.4%,Humaneval得分89.6%,与Gemini 2.0 Flash-Lite模型互有胜负。数学能力方面,该模型在AIME 2025测试中取得23.3%的成绩,超越了对比模型的20.0%,展现了扩散架构在推理任务中的潜力。
不过,DiffusionGemma在某些基准测试中仍存在不足。科学推理GPQA Diamond测试得分40.4%,明显低于对比模型的56.5%;推理能力BIG-Bench Extra Hard测试得分15.0%,也落后于对比模型的21.0%。这些短板表明,该模型在特定领域仍有优化空间。
英伟达官方博文指出,DiffusionGemma的扩散设计能够充分发挥其GPU的Tensor Core并行计算能力。在单块H100 GPU上,该模型达到每秒1000个Tokens的生成速度;在DGX Spark平台上为每秒150个Tokens;在DGX Station平台上则可达每秒2000个Tokens,约为同等条件下自回归模型速度的四倍。这一性能优势使得DiffusionGemma在需要高速本地推理的场景中具有广阔的应用前景。








