ITBear旗下自媒体矩阵:

蚂蚁开源Ming-Flash-Omni 2.0:全模态突破,多项能力领先成新标杆

   时间:2026-02-11 15:21:47 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

蚂蚁集团近日正式开源了新一代全模态大模型Ming-Flash-Omni 2.0,该模型在视觉语言理解、语音可控生成及图像编辑等核心领域展现出卓越性能,部分指标已超越国际主流模型Gemini 2.5 Pro,为开源社区树立了全模态技术的新标杆。

作为业界首个实现全场景音频统一生成的模型,Ming-Flash-Omni 2.0突破了传统音频处理的局限,可在单条音轨中同步生成语音、环境音效与背景音乐。用户通过自然语言指令即可精准调控音色、语速、语调、音量及情绪参数,甚至支持方言定制与零样本音色克隆,为影视配音、游戏音效等场景提供了高效解决方案。

在推理效率方面,该模型实现了3.1Hz的极低帧率,支持分钟级长音频的实时高保真生成,同时将计算成本控制在行业领先水平。这一突破得益于其基于Ling-2.0架构(MoE,100B-A6B)的优化设计,通过混合专家模型与亿级数据训练,在视觉、音频、图像三大模态上实现了系统性提升。

视觉领域,模型通过融合细粒度数据与难例训练策略,显著增强了对近缘物种、工艺细节及稀有文物的识别能力。图像编辑功能则支持光影调整、场景替换、人物姿态优化等复杂操作,即使在动态场景中也能保持画面连贯性与细节真实性,为专业设计提供了强大工具。

音频生成方面,除同轨合成技术外,模型还具备自然语言驱动的精细控制能力,可实时调整语音情感表达与音效层次。图像生成模块则通过增强稳定性算法,使一键修图、背景替换等功能更加可靠,降低了专业内容创作的门槛。

目前,Ming-Flash-Omni 2.0的模型权重与推理代码已在Hugging Face等开源平台全面开放,开发者可通过蚂蚁百灵官方平台Ling Studio进行在线体验与调用。此次开源标志着蚂蚁集团将多年积累的全模态技术以可复用底座的形式对外释放,为端到端多模态应用开发提供了统一的能力入口。

据悉,Ming-Omni系列模型已历经三次迭代,此次升级围绕"精准识别、细腻感知、稳定生成"三大目标展开,通过架构创新与数据工程结合,在复杂场景下的多模态交互能力上取得关键突破,为AI技术在内容创作、智能交互等领域的应用开辟了新路径。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version