Google推出的新一代开源模型Gemma 4,在发布短短数小时内便引发开发者社区的热烈讨论。这款模型包含E2B、E4B、26B(MoE)和31B四个版本,其中E2B和E4B可在手机、树莓派等设备上直接运行,26B和31B也仅需消费级显卡即可支持,打破了传统大模型对硬件的高要求。
与闭源的Gemini大模型追求“规模至上”不同,Gemma系列始终秉持“小而精”的设计理念。然而,Gemma 4的表现却超出预期——尽管参数规模未显著扩张,架构也未颠覆性创新,但在多项基准测试中,其性能已接近甚至超越更大规模的模型。例如,26B和31B版本在AI竞技场中与国产开源模型不相上下,甚至超越了参数规模达685B的DeepSeek V3.2和397B的Qwen 3.5。
Gemma 4的突破不仅体现在性能上,更在于其设计逻辑的革新。26B版本采用MoE架构,总参数虽为26B,但实际激活规模更小,这种设计使其在成本可控的前提下,实现了接近更大模型的效果。开发者在早期测试中发现,Gemma 4在代码生成、多模态理解等任务中表现稳定且高效,甚至在RTX 5090显卡上部署的31B版本,以及在Mac mini(M4 16GB)上运行的26B版本,均展现出良好的实用性。
开源协议的调整是Gemma 4的另一大亮点。此前,Gemma系列的开源协议因限制较多而饱受争议,此次Google全面采用Apache 2.0协议,允许个人和企业自由商用、再分发,彻底消除了开发者的后顾之忧。这一改变被视为Google重新布局开源生态的重要信号,也为模型在开发者中的普及奠定了基础。
Gemma 4的野心不仅限于性能提升,更在于推动本地AI应用的落地。E2B和E4B版本专为端侧设计,量化后体积可压缩至1.5GB以内,在树莓派5上能达到每秒100 tokens的推理速度。这种设计使AI系统得以在资源有限的设备上独立运行,无需依赖云端或API。更关键的是,Google联合高通、联发科等硬件厂商,从芯片到系统层面进行了深度优化,确保模型在端侧的流畅运行。
端侧AI的潜力因Gemma 4的推出而进一步显现。过去,手机等设备的AI功能多依赖云端模型,本地仅负责简单推理。而Gemma 4的E2B和E4B版本支持文本、图像、音频的多模态输入,甚至能参与多步Agent工作流,将更完整的AI能力直接嵌入设备。这种转变不仅提升了隐私安全性,也为操作系统与AI的深度融合提供了可能——当模型运行在SoC的NPU上,系统级组件便可调用本地模型完成推理、生成等任务,AI将真正成为操作系统的一部分。
在Agent时代,开源模型的竞争焦点正从“性能对决”转向“可用性比拼”。此前,meta的Llama奠定了开源生态的基础,而中国公司凭借Qwen、DeepSeek等模型在性能、成本和落地能力上逐渐反超闭源模型。Google此次通过Gemma 4的发布,明确了其“双线作战”的策略:Gemini系列继续对标GPT和Claude,守住商业化上限;Gemma系列则聚焦开发者、本地部署和生态扩展,填补开源领域的空白。
当前,Agent已成为行业焦点,开发者更关注模型的“干活”能力而非单纯对话或多模态表现。尽管Gemini在能力上仍属第一梯队,但在开发者心智中并未成为Agent的首选底座。Gemma 4的推出恰逢其时——它不仅解决了开源协议的痛点,更通过26B、31B和E2B、E4B版本,回应了“能否将AI能力直接搬到设备上运行”的核心问题。这一步或许不够激进,却为开源模型在Agent时代的竞争提供了新的思路。










