近日,通义千问正式对外宣布,其系列中首个图像生成基础模型Qwen-Image已面向公众开源。该模型拥有20B的MMDiT架构,尤其在复杂文本渲染与精确图像编辑领域取得了显著突破。
在实际应用中,Qwen-Image展现了其高保真文本渲染的实力。例如,在海报制作场景中,它不仅能精准捕捉海报的整体风格,还能细致描绘人物的动作与表情,同时精确生成中英文文字。在分模块案例中,Qwen-Image能自动完成排版,并生成各模块的图标、标题及介绍文本。即便在纸张空间有限且段落文字较长的情况下,它也能确保文字生成的准确性,并支持中英文灵活切换。
Qwen-Image在通用图像生成方面同样表现出色,支持从照片级写实到印象派绘画,从动漫风格到极简设计等多种艺术风格。它能够根据创意提示,灵活生成符合需求的图像。
通义千问表示,Qwen-Image的开源旨在推动图像生成领域的发展,降低视觉内容创作的技术门槛,激发更多创新应用的可能性。同时,他们诚挚邀请社区用户积极参与并提供反馈,共同构建一个开放、透明、可持续发展的生成式AI生态系统。目前,Qwen-Image模型已在魔搭社区与Hugging Face平台上开源。