本周五,谷歌震撼发布了其最新的端侧多模态大模型Gemma3n,并慷慨地将其开源。这一创新之举意味着,用户在手机、平板和笔记本等设备上,无需依赖云端,就能享受到以往只有云端才能提供的高级多模态功能。
Gemma3n的两大版本E2B和E4B,尽管参数量分别达到50亿和80亿,但通过一系列架构设计上的巧思,它们对内存的需求却极其友好。E2B版本仅需2GB内存,而E4B也只需3GB,这相当于传统20亿和40亿参数模型的内存占用。更令人称奇的是,这两个版本均原生支持图像、音频、视频和文本的全方位输入处理,覆盖了140种文本语言和35种语言的多模态理解。
在LMArena评测中,E4B版本以超过1300分的成绩脱颖而出,成为首个突破这一基准的百亿参数以下模型。这一成就不仅展示了Gemma3n在多语言能力上的卓越,还显著提升了数学、编码和逻辑推理等多方面的性能。
技术创新方面,Gemma3n引入了四大突破性架构。其中,MatFormer架构如同俄罗斯套娃,一个模型内嵌多种尺寸,使得E4B在训练时能同步优化E2B子模型,为用户提供更多性能选择。Mix-n-Match技术允许用户根据需求在E2B和E4B之间自由创建自定义尺寸的模型。
每层嵌入(PLE)技术的引入,使得大部分参数可以在CPU上高效计算,只有关键的Transformer权重需要存储在加速器内存中,这极大提升了内存使用效率,同时保证了模型的高质量。而KV Cache共享技术则专为长内容处理而设计,通过键值缓存共享,预填充性能较之前的Gemma34B提升了整整两倍,显著加快了长序列处理的首个token生成速度。
在音频和视觉处理方面,Gemma3n同样表现不俗。音频编码器基于通用语音模型(USM),支持自动语音识别和语音翻译,可处理长达30秒的音频片段。而视觉编码器则采用了MobileNet-V5-300M,支持多种分辨率输入,在Google Pixel设备上可达到每秒60帧的处理速度。
Gemma3n在语音翻译领域尤其出色,特别是在英语与西班牙语、法语、意大利语、葡萄牙语之间的转换上。通过先进的蒸馏技术,MobileNet-V5编码器相比基线模型实现了13倍的加速,参数减少了46%,内存占用降低了4倍,同时保持了更高的准确率。
谷歌已将Gemma3n的模型和权重在Hugging Face平台上开源,并提供了详尽的文档和开发指南。自去年首个Gemma模型发布以来,该系列模型已累计下载超过1.6亿次,充分显示了其强大的开发者生态和广泛的影响力。
Gemma3n的发布无疑标志着端侧AI的一个全新里程碑,将云端级别的多模态能力直接带到了用户设备上,为移动应用和智能硬件等领域开辟了广阔的应用前景。开发者们可以通过访问Hugging Face平台(https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4)和谷歌官方文档(https://ai.google.dev/gemma/docs/gemma-3n),深入了解并利用这一强大工具。