昆仑万维近期在AI领域迈出了重要一步,正式推出了多模态统一预训练模型Skywork UniPic,并决定将其开源。这一模型集成了图像理解、文本到图像生成及图像编辑三大核心功能,通过大规模高质量数据的端到端预训练,展现出了强大的通用性和迁移能力。
Skywork UniPic采用了创新的MAR编码器和SigLIP2主干网络,打破了传统多模态模型在语义信息保留上的局限。这一设计使得模型能够在不同任务间实现深度协同,用户只需简单的提示词,即可完成复杂的图像理解、生成及风格转换等操作,比如根据特定场景生成图片或对已有图像进行风格化编辑。
在性能表现上,Skywork UniPic以1.5B的参数规模,达到了接近大型统一模型的效果。在指令遵循、复杂指令生成图像及图像编辑等基准测试中,该模型均取得了行业领先的成绩。尤为它在消费级显卡上就能流畅运行,大大降低了技术应用的门槛。
Skywork UniPic的成功,离不开其精炼的数据构建体系、专用的Reward Model优化以及渐进式多任务训练策略。通过高效能语料库和分层分辨率训练机制,该模型在性能和训练效率之间取得了良好的平衡,避免了传统方法中常见的性能权衡问题。
昆仑万维此次开源Skywork UniPic,是其推动AI技术普惠的又一重要举措。此前,该公司已经开源了多个领域的大模型,而Skywork UniPic的加入,将进一步推动AI成为易于获取的创意工具。用户现在可以通过指定链接,获取模型的权重、技术报告以及代码仓库等核心资源。
对于想要深入了解Skywork UniPic的用户,以下提供了相关资源的链接:
模型权重获取地址:https://huggingface.co/Skywork/Skywork-UniPic-1.5B
技术报告下载地址:https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
代码仓库访问地址:https://github.com/SkyworkAI/UniPic