通义千问系列近期宣布了一项重大开源举措,推出了一款名为Qwen-Image的图像生成基础模型。这款模型拥有20亿参数,采用了先进的多模态扩散变换器(MMDiT)技术,不仅在复杂文本渲染和精确图像编辑领域取得了重大突破,还在多个行业基准测试中展现了卓越的性能。
Qwen-Image以其卓越的文本渲染能力尤为引人注目。它能够支持多行布局和段落级文本生成,并能在细节呈现上达到极高的保真度。无论是英文还是中文,Qwen-Image都能游刃有余。例如,在渲染宫崎骏风格的动漫场景时,无论是店铺的牌匾、人物的姿势神态,还是酒缸上的微小文字,Qwen-Image都能精准捕捉并完美呈现。在中文对联的生成中,它不仅准确绘制了对联的左右联和横批,还巧妙融入了书法元素,令人赞叹不已。
在英文文本渲染方面,Qwen-Image同样表现出色。无论是书店橱窗的展示信息,还是复杂的信息图表,它都能准确无误地生成文本,并将其巧妙融入整体设计之中,展现出高度的艺术性和信息传达能力。尤其在处理不同大小和数量的文字时,Qwen-Image都能保持高度的清晰度和准确性,如生成手中纸张上的长段文字,或在玻璃板上呈现完整的手写体段落。
除了文本渲染外,Qwen-Image在图像编辑领域也展现出了非凡的实力。通过增强的多任务训练范式,它能够在编辑过程中保持高度的一致性,支持风格迁移、物体增减、细节增强以及人物姿态调整等多种操作。这使得普通用户也能轻松实现专业级的图像编辑效果,极大地降低了视觉内容创作的门槛。
目前,Qwen-Image已在魔搭社区、Hugging Face和GitHub等平台开源,并提供了详尽的技术报告和演示示例。用户可以通过访问QwenChat的“图像生成”功能,亲身体验这款强大模型的出色表现。对于感兴趣的开发者和研究者来说,ModelScope、Hugging Face和GitHub上的相关链接提供了丰富的资源和信息。
想要了解更多关于Qwen-Image的信息或亲自体验其强大功能,请访问以下链接:
ModelScope: https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face: https://huggingface.co/Qwen/Qwen-Image
GitHub: https://github.com/QwenLM/Qwen-Image
Demo展示: https://modelscope.cn/aigc/imageGeneration?tab=advanced