ITBear旗下自媒体矩阵:

国产开源新突破:Skywork UniPic多模态模型引领AI全能体验

   时间:2025-07-30 14:58:34 来源:量子位编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近期,AI领域掀起了一股新的热潮,GPT-5的造势引发了广泛关注,而上半年GPT-4o的“吉卜力”风暴依然热度不减。根据微信指数显示,GPT-4o引发的生图功能在网友中持续风靡,不仅让“万物皆可吉卜力”成为潮流,更引发了关于AIGC范式的深刻思考。

昆仑万维在这一技术趋势下迈出了重要一步,开源了多模态统一模型Skywork UniPic。这款模型展现了与GPT-4o类似的图像一体化能力,能够在单一模型中实现图像理解、文本到图像生成、图像编辑三大核心能力的深度融合。Skywork UniPic通过自回归模型架构,将图像生成深度整合到多模态框架中,实现了跨模态的一体化建模。

在生图能力上,Skywork UniPic展现了对提示词的深刻理解。例如,对于提示词“两位寿司师傅在江户时代熙攘的街市投掷彩虹寿司。他们头顶的纸灯笼明灭闪烁。整个场景呈现出像素化的复古游戏画风。”,模型能够生成高度符合要求的图像。该模型还能将图片转换成吉卜力风格,效果令人印象深刻。

与同类大参数模型相比,Skywork UniPic主打高“性能密度”,其1.5B参数模型的效果接近甚至超越百亿参数专用模型,且能在消费级显卡上流畅运行。昆仑万维此次开源不仅提供了完整模型权重和详细技术报告,还配套了全流程代码,为学习者和开发者提供了全面的资源。

Skywork UniPic的技术细节显示,其采用了自回归模型架构,通过解耦的视觉编码器设计,实现了图像生成与图像理解的深度融合。该模型还通过大规模预训练,从单纯的“图像生成”能力跃升为兼具“高质量生成”与“强大语义表征”的综合视觉基座。在数据构建方面,昆仑万维团队通过精选预训练语料与任务精调样本,构建了一套高效能多模态训练语料库,实现了高质量小规模数据训练多模态模型的可行性。

为确保图像生成与编辑任务的高性能,昆仑万维团队还设计了两套专用奖励模型,分别用于图像生成和图像编辑的数据质量评估。这些奖励模型不仅提高了数据筛选的精确度,还作为强化学习训练中的奖励信号,显著提升了模型的生成和编辑能力。

在训练策略上,Skywork UniPic采用了渐进式多任务训练机制,结合MAR训练优化体系与Harmon训练优化体系的精髓,实现了模型能力的有序提升。通过逐步引入不同难度的任务,并在精细化调优阶段利用奖励模型筛选高质量训练数据,模型在理解、生成和编辑任务上均表现出了卓越的综合性能。

原生多模态统一模型正受到越来越多的关注,其优势在于能够在统一模型中集成多模态能力,满足用户的多样化需求。Skywork UniPic的成功展示了高质量小数据结合统一自回归框架的潜力,为AIGC从“拼规模”走向“拼效率、拼体验”提供了方向。昆仑万维的持续开源也推动了技术社区的进步,为开发者们探索AI应用的更多可能性提供了支持。

昆仑万维自发布AI搜索产品“天工AI搜索”以来,一直保持着持续开源的状态,从语言模型到视频模型,覆盖了多模态的全方位应用。其开源力量正推动着我们更快迎来创意大爆炸时代,而这一次,中国技术正引领全球风潮。

感兴趣的读者可以访问以下链接获取更多信息:模型权重(https://huggingface.co/Skywork/Skywork-UniPic-1.5B)、技术报告(https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf)、代码仓库(https://github.com/SkyworkAI/UniPic)。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version