ITBear旗下自媒体矩阵:

蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0 推动多模态技术深度融合与应用

   时间:2026-02-11 11:54:26 来源:ITBEAR编辑:快讯 IP:北京 发表评论无障碍通道
 

蚂蚁集团近日宣布开源其最新研发的全模态大模型——Ming-Flash-Omni 2.0。该模型在视觉语言理解、语音可控生成、图像生成与编辑等多个领域展现出卓越性能,成为开源社区中备受瞩目的技术突破。

作为业界首个全场景音频统一生成模型,Ming-Flash-Omni 2.0突破了传统模型在音频处理上的局限。它能够在单条音轨中同时生成语音、环境音效和音乐,并通过自然语言指令实现音色、语速、语调、音量、情绪和方言的精准控制。在推理效率方面,该模型达到3.1Hz的极低帧率,支持分钟级长音频的实时高保真生成,在成本控制和性能表现上均处于行业领先地位。

全模态大模型的发展面临通用性与专精性的平衡难题。开源模型在特定任务上往往难以媲美专用模型,但蚂蚁集团通过持续投入和技术迭代,使Ming-Omni系列逐步突破这一瓶颈。早期版本构建了多模态能力基础,中期版本验证了规模增长带来的性能提升,而2.0版本通过更大规模的数据训练和系统性优化,在全模态理解与生成能力上达到开源领域领先水平,甚至在部分场景超越专用模型。

该模型基于Ling-2.0架构(MoE,100B-A6B)开发,围绕"精准识别、精细控制、稳定生成"三大核心目标进行优化。在视觉领域,通过融合亿级细粒度数据和难例训练策略,显著提升了对近缘物种、工艺细节和稀有文物的识别能力;音频方面,支持语音、音效、音乐的同轨生成,并具备零样本音色克隆功能;图像编辑功能则强化了复杂场景的稳定性,支持光影调整、场景替换和一键修图等操作,即使在动态场景中也能保持画面连贯性。

百灵模型负责人周俊指出,全模态技术的核心在于通过统一架构实现多模态能力的深度融合。开源后,开发者可基于同一框架调用视觉、语音和生成能力,大幅降低多模型串联的复杂度和开发成本。目前,Ming-Flash-Omni 2.0的模型权重和推理代码已在Hugging Face等开源平台发布,用户也可通过蚂蚁百灵官方平台Ling Studio进行在线体验和调用。

这一技术突破不仅为端到端多模态应用开发提供了统一能力入口,更推动了AI技术在实际业务中的规模化落地。随着工具链和评测体系的不断完善,全模态大模型有望在更多领域展现其变革性潜力。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version