ITBear旗下自媒体矩阵:

阿里通义千问引领多模态大模型竞赛,Qwen-Image-Edit成专业创作新利器

   时间:2025-08-20 12:07:09 来源:21世纪经济报道编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在人工智能领域,多模态大模型的竞赛正愈演愈烈,阿里通义千问的最新进展为此增添了新的燃料。近日,通义团队宣布推出Qwen-Image-Edit,这款基于200亿参数的Qwen-Image模型进一步训练而成的大模型,专注于语义和外观编辑,支持中英文文本修改、风格迁移及物体旋转功能,为专业内容创作者提供了更广阔的想象空间。

自2025年初以来,阿里在多模态模型领域的布局动作频频,从Qwen2.5-VL到Qwen2.5-Omni,再到Qwen-Image,每一次推出都引发了业界的广泛关注。与此同时,智谱、阶跃星辰等国内大模型厂商也在加速布局,从视觉理解到全模态交互,多模态大模型的发展速度明显加快。

业内人士普遍认为,当前大模型的发展已从单一语言模型迈向了多模态融合的新阶段,这是通往通用人工智能(AGI)的必经之路。据谷歌研究报告预测,到2025年,全球多模态AI市场规模将达到24亿美元,而到2037年,这一数字有望攀升至989亿美元。

商汤科技首席科学家林达华曾表示,未来的多模态模型在纯语言任务上的表现甚至可能超越单一语言模型。国内厂商正加速布局这一领域,预计2025年下半年,多模态模型将迎来全面普及。

事实上,多模态模型的快速发展并非偶然。人类的日常活动天然涉及文本、图像、视频等多模态信息的处理,而多模态信息的输入、处理与输出能力,正是从生产力工具向生产力转化的关键。随着大模型越来越强调落地应用,多模态能力已成为其核心竞争点之一。

阿里推出的Qwen2.5系列在多模态能力上不断突破,其中Qwen2.5-VL在视觉理解能力上全面超越GPT-4和Claude3.5,而Qwen2.5-Omni则支持文本、图像、音频、视频的实时交互,可部署于手机等终端智能硬件。此次推出的Qwen-Image-Edit,更是将Qwen-Image的文本渲染能力延伸至图像编辑领域,实现了对图片中文本的精准编辑。

除了阿里,阶跃星辰、商汤等厂商也在积极布局多模态领域。阶跃星辰发布的Step 3大模型原生支持多模态推理,具备视觉感知和复杂推理能力;商汤的日日新V6.5大模型则进行了模型架构改进和成本优化,多模态推理与交互性能大幅提升。智谱推出的GLM-4.5V视觉推理模型,以及昆仑万维在一周内连续发布的六款多模态模型,都彰显了国内厂商在多模态领域的强劲势头。

尽管多模态模型的发展势头迅猛,但仍处于发展初期。与文本领域相比,多模态领域在表征复杂度、语义闭环性等方面面临更多挑战。阶跃星辰创始人姜大昕表示,当前多模态领域的基础性问题尚未解决,需要像ChatGPT、强化学习范式这样的大技术变迁才能推动其进一步发展。

虽然多模态模型已在数字人直播、医疗诊断、金融分析等场景中实现落地应用,但距离真正实现AGI还有很长的路要走。主流的多模态模型在图形和空间结构的推理能力上仍较薄弱,缺乏较强的空间感知能力。这一问题若得不到突破,将成为具身智能落地的重要障碍。

随着技术的不断成熟和生态的持续完善,多模态能力将成为AI系统的标配。如何将这种能力转化为实际生产力和社会价值,将是产业界下一步需要重点探索的方向。在通往AGI的道路上,多模态大模型无疑扮演着至关重要的角色。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version