蚂蚁集团近日宣布,其自主研发的最新一代全模态大模型Ming-Flash-Omni 2.0正式面向全球开发者开源。该模型在视觉语言理解、语音合成控制及图像生成编辑等关键技术领域取得突破性进展,多项性能指标已达到国际领先水平,部分测试结果甚至超越了当前主流的Gemini 2.5 Pro模型。
作为全球首个实现全场景音频统一生成的技术方案,Ming-Flash-Omni 2.0突破了传统模型在语音、音效、音乐分离处理的局限。通过创新的单音轨多元素融合技术,该模型可同步生成包含人声对话、环境音效和背景音乐的完整音频流。用户通过自然语言指令即可精准控制音色特征、语速节奏、情感表达等20余种参数,甚至支持方言语音的定制化生成。
在计算效率方面,研发团队通过架构优化将模型推理帧率降至3.1Hz,在保持48kHz高采样率音频生成质量的同时,实现分钟级长音频的实时输出。这种高效能设计使模型在移动端设备部署时的计算资源消耗降低40%,响应速度提升3倍,为边缘计算场景下的多模态应用开发提供了技术保障。
该模型的开源标志着蚂蚁集团在全模态人工智能领域的技术积累进入新阶段。自2018年启动Ming-Omni系列研发以来,团队已完成三次重大迭代升级。此次开源的2.0版本将核心算法框架、训练数据集和部署工具链整体开放,开发者可通过蚂蚁百灵平台Ling Studio直接调用模型能力,或基于开源代码进行二次开发,这为智能客服、数字人、内容创作等领域的端到端应用开发提供了标准化解决方案。











