ITBear旗下自媒体矩阵:

面壁智能MiniCPM-o 4.5开源:全模态交互革新,多领域性能提升引领AI新潮

   时间:2026-02-04 21:57:21 来源:ITBEAR编辑:快讯 IP:北京 发表评论无障碍通道
 

面壁智能近日正式开源了其新一代全模态旗舰模型——MiniCPM-o 4.5,这一模型凭借“边看、边听、主动说”的全模态交互能力,在人工智能领域引发广泛关注。作为原生全双工架构的大模型,MiniCPM-o 4.5突破了传统“对讲机”式回合制交互的局限,实现了感知不中断、对话更自然、提醒无需主动询问的“即时自由对话”体验。

基于统一系统软件栈FlagOS的跨平台能力,MiniCPM-o 4.5在适配性上表现突出。目前,该模型已在天数智芯、华为昇腾、平头哥、海光、沐曦等6款国产芯片上完成端到端推理优化,显著提升了性能表现。与此同时,模型延续了面壁智能“小钢炮”系列的高密度特点,仅以9B参数规模便在全模态、视觉理解、文档解析、语音交互及声音克隆等多个领域达到行业领先水平。

在语音交互方面,MiniCPM-o 4.5通过创新的模型设计与数据训练方法,实现了音色自然度、拟人化程度和情感表现力的全面升级。模型能够根据对话场景自动匹配语气与音色,有效解决了长语音合成中音色不统一、语气生硬、效果波动等问题。在声音克隆功能上,用户仅需提供数秒的原始音频样本,即可生成定制化音色,并支持基于克隆音色进行角色化语音对话。

效率与成本优化是该模型的另一大亮点。通过优化显存占用和加速推理速度,MiniCPM-o 4.5在保持SOTA级全模态性能的同时,大幅降低了推理开销。其端到端架构整合了全双工多模态实时流机制、主动交互引擎和可配置语音建模模块,为复杂场景下的智能交互提供了技术支撑。

目前,MiniCPM-o 4.5的代码与模型权重已在GitHub、Hugging Face等开源平台公开,开发者可自由获取并参与社区共建。这一举措不仅推动了全模态技术的普及,也为多模态AI应用的落地提供了新的解决方案。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version