香港中文大学与字节跳动联合研发的UniGRPO框架在人工智能图像生成领域引发广泛关注。这项突破性技术通过模拟人类艺术家的创作思维,使AI系统能够先进行创意构思再生成图像,彻底改变了传统AI图像生成"机械执行指令"的模式。研究团队在arXiv平台发布的论文显示,该框架在复杂构图理解、创意表达等关键指标上达到人类水平,为AI辅助创作开辟了全新路径。
传统图像生成AI如同流水线工人,当用户输入"画一只猫"时,系统会直接调用训练数据生成图像,缺乏对创作背景、风格、情感等要素的思考。而UniGRPO框架通过构建"思考-创作"双阶段模型,使AI能够像专业画家一样进行创意推演。例如面对"戴帽子的猫"这一指令,系统会自主分析帽子款式、猫咪姿态、画面构图等要素,最终生成具有独特风格的完整作品。这种思维模式的引入,使AI生成的图像在创意性和艺术性上实现质的飞跃。
研究团队设计的群体相对策略优化(GRPO)训练机制是该框架的核心创新。通过组织24个AI模型同时进行创作竞赛,系统根据作品在群体中的相对表现进行奖惩。这种训练方式模拟了人类艺术评价中的比较思维,促使AI不断优化创作策略。实验数据显示,经过GRPO训练的模型在文本对齐测试中取得0.8381分,在复杂构图测试中达到0.90分,显著优于传统强化学习方法。
针对AI训练中的"奖励欺骗"难题,研究团队提出两项关键技术改进。首先取消分类器自由引导机制,采用线性训练流程减少计算复杂度,防止AI通过复杂分支路径寻找作弊策略。其次引入速度场均方误差惩罚机制,通过实时监测创作动作的规范性,确保AI始终沿着正确方向优化。这些改进使训练效率提升40%,同时将异常图像生成率降低至3%以下。
在实战测试中,UniGRPO框架展现出强大的场景理解能力。面对"草地上老虎追赶两只羊"的复杂指令,系统不仅准确呈现动态关系,还通过大小对比突出主体层次。在"云朵形状茶壶"等抽象创意测试中,AI能够自主分解设计要素,生成兼具实用性与艺术性的作品。更令人惊喜的是,系统在失败案例中仍能保持部分正确性,如将"六只茶杯排成三角形"误绘为矩形时,仍能确保数量准确和排列整齐。
该技术的突破性在于构建了可解释的创作思维链。通过分析AI的中间思考过程,研究团队发现系统会自主进行问题分解、要素分析和方案选择。例如处理"蒙娜丽莎素描版"指令时,AI会先理解原作特征,再分析素描技法要求,最后整合创作方案。这种逻辑推演能力使AI创作从模式匹配升级为真正的创意生成。
目前,研究团队正在探索多轮对话创作模式,计划让AI能够根据用户反馈持续优化作品。在技术扩展方面,该框架已初步应用于视频生成领域,通过将思维链分解为关键帧序列,实现故事性内容的自动创作。这项成果不仅为专业设计师提供智能辅助工具,更可能重塑普通用户的数字创作方式,开启人机协同创作的新纪元。









