面壁智能联合清华大学及OpenBMB开源社区,推出了一款仅1.3B参数的端侧多模态大模型MiniCPM-V4.6,凭借其卓越的智能密度与跨平台适配能力,为端侧人工智能应用开辟了新路径。这款“轻量级”模型在多项评测中展现出超越同量级竞品的性能,甚至直逼更大参数模型,成为端侧AI领域的重要突破。
在Artificial Analysis(AA)榜单中,MiniCPM-V4.6以13分的成绩领跑1B级模型,大幅领先阿里Qwen3.5-0.8B和谷歌Gemma4-E2B-it等竞品,性能接近Qwen3.5-2B。其优势不仅体现在通用图文理解、STEM数理推理等基础能力上,更在文档OCR、视频时序理解等复杂场景中表现突出。Thinking版本在多图像推理与幻觉抑制方面尤为出色,进一步拓展了端侧模型的应用边界。
为解决端侧部署的内存瓶颈,MiniCPM-V4.6通过深度优化推理速度与资源占用,将运行内存需求压缩至6GB,使主流智能手机、PC及智能家居设备均可流畅运行。基于vLLM的推理吞吐量达到竞品的1.5倍,处理3136²超高清大图时首响延迟仅75.7ms,较同类产品快2.2倍。其单卡文本生成能力达7013token/s,图片处理速度达54.79张/秒,效率表现远超行业平均水平。
技术层面,模型依托面壁智能与清华大学联合研发的LLaVA-UHD v4架构,通过重构ViT图像编码与浅层压缩模块,将图像编码开销降低50%,高分辨率浮点运算减少55.8%。其混合压缩机制支持4倍/16倍Token灵活压缩,可在“性能优先”与“速度优先”模式间自由切换,该技术此前已在快手推荐大模型OneRec中验证,可支撑海量流量请求。
开源生态建设方面,MiniCPM-V4.6深度适配ms-swift、LLaMA-Factory等微调框架,开发者仅需单张RTX4090显卡即可完成全量微调。模型支持vLLM、Ollama等主流框架,并推出覆盖iOS、Android、HarmonyOS的测试版本,推动AI技术向更多硬件终端渗透。目前,该模型已在汽车、PC、智能家居及工业检测等领域落地,联想、吉利、上汽大众、小米、OPPO等企业均成为其合作伙伴。












