阿里云宣布推出新一代图像生成基础模型 Qwen-Image-2.0,该模型在文字渲染、真实质感、语义遵循和模型架构等方面实现了显著突破。作为一款生图编辑二合一的模型,Qwen-Image-2.0 在同一模型中实现了文生图和图生图任务的优越性能,为开发者提供了更强大的创作工具。
Qwen-Image-2.0 的核心创新之一是更专业的文字渲染能力。该模型支持 1k token 指令,能够直接生成专业信息图,包括 PPT、海报、漫画等。例如,用户可以通过简单的提示词生成一页包含时间轴、图片和文字说明的 PPT,模型不仅能准确渲染文字,还能实现复杂的"画中画"效果,确保文字与图像的完美融合。在漫画生成任务中,模型能够自动将对话框中的文字规整排版并居中对齐,使生成的漫画更加自然和专业。
在真实质感方面,Qwen-Image-2.0 支持 2k 分辨率输出,能够细腻刻画写实场景,包括人物、自然和建筑等。模型通过建模多种绿色和自然细节,实现了生态真实性的显著提升。例如,在生成夏日森林场景时,模型能够精确区分 23 种以上不同明度、饱和度、冷暖倾向与材质表现的绿色,营造出充满生物细节的森林秘境。这种真实感的提升也体现在人物渲染上,模型能够捕捉皮肤纹理、发丝细节和光影变化,生成高度逼真的人物图像。
语义遵循能力的增强是 Qwen-Image-2.0 的另一大亮点。该模型实现了理解生成一体化和生图编辑二合一,能够在同一模型中完成图像生成和编辑任务。例如,用户可以通过自然语言指令在图像上添加文字、修改元素或调整布局,模型能够准确理解指令意图并生成符合预期的结果。这种能力在图片题词任务中表现尤为突出,模型能够根据提示词在图像的指定位置添加书法文字,并保持文字与图像风格的协调统一。
Qwen-Image-2.0 还采用了更轻量的模型架构,在保持高性能的同时实现了更快的生成速度。阿里云百炼平台已开通 API 邀测,开发者可以通过该平台体验新模型的强大功能。用户还可以通过 Qwen Chat(chat.qwen.ai)免费体验 Qwen-Image-2.0,探索其在专业设计、内容创作和图像编辑等领域的应用潜力。
在图像编辑任务中,Qwen-Image-2.0 展现了强大的跨模态理解能力。例如,在双图编辑任务中,模型能够将不同图像中的人物自然合成到同一场景中,并保持光影、透视和比例的一致性。在跨次元编辑任务中,模型能够将卡通形象与真实城市照片无缝融合,生成具有创意的混合风格图像。这些能力为图像编辑带来了全新的可能性,使非专业用户也能轻松实现复杂的编辑效果。











