ITBear旗下自媒体矩阵:

阿里发布Qwen-Image开源图像模型,中文渲染能力卓越,精准应对复杂排版挑战

   时间:2025-08-05 14:30:06 来源:智东西编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近日,阿里巴巴宣布开源了其通义千问系列中的首个图像生成基础模型——Qwen-Image。这款模型在复杂文本渲染和多场景适应性方面表现出色,标志着国产图像生成技术迈出了重要一步。

Qwen-Image以其强大的文本处理能力脱颖而出,不仅能够准确生成不同语种和风格的文字,还能模拟书法笔触,甚至直接生成包含文本和图像的PPT页面。在展示案例中,Qwen-Image不仅精准还原了“宫崎骏”风格,还根据构图景深变化,将“云存储”、“云计算”等字样自然融入画面。

Qwen-Image示例图

在英文内容生成方面,Qwen-Image同样表现出色。根据英文提示词,它成功创建了一个书店橱窗场景,不仅准确还原了所有指定文字,还为每本书生成了风格化的字体和封面,与书名相得益彰。

除了文本处理,Qwen-Image在通用图像生成方面也展现出了强大的能力,支持从照片级写实到印象派绘画等多种艺术风格。其20B的参数规模和多模态扩散Transformer(MMDiT)架构,使得模型在图像生成和文本渲染方面均达到了SOTA(最佳表现)水平。

阿里千问团队在多个公开基准上对Qwen-Image进行了评估,结果显示,该模型在通用图像生成和图像编辑测试上均超越了包括Flux.1、BAGEL、SeedDream 3.0和GPT Image 1(High)在内的多个开源和闭源模型。特别是在中文文本渲染方面,Qwen-Image大幅领先现有最先进模型。

Qwen-Image的技术报告已同步开源,详细揭示了模型的具体技术实现。该模型架构由三个核心组件构成:Qwen2.5-VL多模态大语言模型作为条件编码器,Wan-2.1视频生成模型的VAE作为图像分词器,以及多模态扩散Transformer作为主干扩散模型。三者协同工作,实现了从文本到图像的精准生成。

为了提升模型的生成能力,阿里团队构建了一套涵盖数十亿规模图文对的数据集,并通过七阶段渐进式数据过滤和课程学习策略,逐步增强模型的细节表现力和文本渲染能力。团队还设计了高效的分布式训练框架和混合并行策略,以应对模型巨大的参数量和数据量。

在图像编辑方面,Qwen-Image支持风格迁移、增删改、细节增强、文字编辑和人物姿态调整等多种操作。通过统一的多任务框架,模型能够支持文本到图像和图文到图像等多种生成模式,满足用户多样化的需求。

目前,Qwen-Image已在魔搭和Hugging Face等社区开源,普通用户可在QwenChat中选择图像生成功能,直接体验这款先进的模型。随着阿里持续开源图像模型,其可用性将得到进一步提升,为图像生成技术走入真实生产场景奠定坚实基础。

Qwen-Image技术报告封面

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version