面壁智能近日正式开源了其新一代全模态旗舰模型——MiniCPM-o 4.5,这一模型凭借“边看、边听、主动说”的全模态交互能力,在人工智能领域引发广泛关注。作为原生全双工架构的大模型,MiniCPM-o 4.5突破了传统“对讲机”式回合制交互的局限,实现了感知不中断、对话更自然、提醒无需主动询问的“即时自由对话”体验。
基于统一系统软件栈FlagOS的跨平台能力,MiniCPM-o 4.5在适配性上表现突出。目前,该模型已在天数智芯、华为昇腾、平头哥、海光、沐曦等6款国产芯片上完成端到端推理优化,显著提升了性能表现。与此同时,模型延续了面壁智能“小钢炮”系列的高密度特点,仅以9B参数规模便在全模态、视觉理解、文档解析、语音交互及声音克隆等多个领域达到行业领先水平。
在语音交互方面,MiniCPM-o 4.5通过创新的模型设计与数据训练方法,实现了音色自然度、拟人化程度和情感表现力的全面升级。模型能够根据对话场景自动匹配语气与音色,有效解决了长语音合成中音色不统一、语气生硬、效果波动等问题。在声音克隆功能上,用户仅需提供数秒的原始音频样本,即可生成定制化音色,并支持基于克隆音色进行角色化语音对话。
效率与成本优化是该模型的另一大亮点。通过优化显存占用和加速推理速度,MiniCPM-o 4.5在保持SOTA级全模态性能的同时,大幅降低了推理开销。其端到端架构整合了全双工多模态实时流机制、主动交互引擎和可配置语音建模模块,为复杂场景下的智能交互提供了技术支撑。
目前,MiniCPM-o 4.5的代码与模型权重已在GitHub、Hugging Face等开源平台公开,开发者可自由获取并参与社区共建。这一举措不仅推动了全模态技术的普及,也为多模态AI应用的落地提供了新的解决方案。











