苹果研究团队近日在人工智能领域取得重要进展,推出多模态AI模型UniGen 1.5。该模型突破传统架构,首次将图像理解、生成与编辑三大核心功能整合至单一系统,为视觉任务处理开辟了新路径。
传统方案通常依赖多个独立模型分别处理图像理解、生成与编辑任务,而UniGen 1.5通过构建统一框架,实现了三大功能的协同运作。研究人员指出,这种架构设计使模型能够利用图像理解能力优化生成效果,从而输出更精准的视觉内容。例如,在图像编辑场景中,模型可同时理解用户意图并生成符合要求的图像,而非简单执行预设操作。
针对图像编辑中指令理解难的问题,研究团队创新性地引入“编辑指令对齐”后训练阶段。该技术要求模型先根据原图与用户指令生成目标图像的详细文本描述,再据此完成编辑。这一“先理解后执行”的流程迫使模型深度解析编辑意图,显著提升了修改准确性。实验数据显示,该技术使模型对复杂指令的响应精度提高了约30%。
在强化学习机制方面,UniGen 1.5同样取得突破。研究团队设计了一套统一奖励系统,可同时应用于图像生成与编辑训练过程。此前,由于编辑任务涵盖从微调到重构的广泛需求,统一奖励机制难以实现。而新系统通过量化不同任务的质量标准,使模型在处理各类视觉任务时保持一致性,有效增强了抗干扰能力。
尽管成绩显著,UniGen 1.5仍存在部分局限性。研究团队在论文中承认,由于离散去标记器在控制细粒度结构方面存在不足,模型在生成图片内文字时易出现错误。例如,在包含复杂文本的场景中,模型可能生成模糊或错位的字符。部分编辑场景下会出现主体特征漂移问题,如动物毛发纹理或羽毛颜色异常,这些问题将成为后续优化重点。









