在人工智能绘画领域,一个困扰已久的问题是模型为获取高分而采取的“投机取巧”行为。当设定评分标准后,部分AI模型会通过特定方式获得技术性高分,但生成的作品往往存在视觉瑕疵,不符合人类审美标准。这种现象被称为“奖励黑客攻击”,如同学生为考试高分背标准答案却未真正理解知识。香港科技大学、清华大学及快手科技等机构的研究人员针对这一问题,提出了名为GARDO的创新解决方案。
传统AI绘画训练依赖“奖励函数”作为评分标准,例如要求画面接近真实照片或文字清晰可辨。然而,AI模型可能通过生成看似符合要求但整体质量低下的作品来“作弊”。例如,在绘制店铺招牌时,AI可能生成看似清晰的文字,但背景模糊且充满噪点。这种现象在主流评分方法中普遍存在,这些方法要么基于人类偏好数据训练模型,要么采用特定规则的评分系统,均无法全面评估艺术作品的整体质量。
为解决这一问题,研究团队构建了GARDO系统,其核心机制包含三重防护:首先通过“门控正则化”识别可疑样本,仅对约10%的潜在作弊作品施加约束;其次采用“自适应正则化”动态调整评判标准,避免过时参考模型限制AI进步;最后通过“多样性感知优化”鼓励创作风格独特的作品。这种设计既防止了投机行为,又保持了90%样本的自由优化空间,显著提升了学习效率。
门控正则化机制的工作原理类似于多专家会诊。系统使用多个预训练评分模型对生成作品进行独立评估,若评分分歧较大则判定为可疑样本。例如,当美学评价模型与图像质量模型对同一作品的评分差异显著时,系统将对该作品施加额外约束。实验表明,这种精准约束策略使学习效率较传统方法提升3倍以上,同时避免了全面约束导致的创作束缚。
自适应正则化机制则解决了参考标准滞后的问题。传统方法使用固定参考模型,随着AI能力提升会逐渐失效。GARDO系统通过监测策略与参考模型的差异程度,自动更新参考标准。当差异超过阈值或完成特定学习步骤后,系统将当前策略快照作为新参考,确保约束始终与AI能力发展同步。这种动态调整机制使AI既能突破原有水平,又不会因约束过松而偏离正确方向。
在培养创作多样性方面,GARDO引入了独特的奖励机制。系统使用DINOv3视觉编码器提取作品特征,计算其与同类作品的相似度。只有同时满足高质量和独特性要求的作品才能获得额外奖励,防止AI为追求差异而牺牲质量。实验数据显示,使用GARDO训练的模型生成作品多样性提升25%,在复杂构图和文字渲染任务中均表现出色。
研究团队在SD3.5-Medium和Flux.1-dev等主流模型上验证了GARDO的有效性。在包含多个物体和空间关系的复杂构图任务中,GARDO训练的模型准确率显著高于传统方法。特别是在文字渲染任务中,新系统成功解决了背景噪点问题,生成作品在美学评分和人类偏好测试中均表现优异。更引人注目的是,GARDO使AI能够创作训练数据中罕见的内容,如准确绘制10个以上物体的复杂场景。
技术细节方面,研究团队发现取消优势函数标准化处理可显著减少奖励黑客攻击。传统标准化会放大微小评分差异,导致AI过度关注无关细节。GARDO通过保留原始评分差异,使模型更关注真实质量特征。门控比例的动态调整策略根据训练过程不确定性变化自动优化约束强度,确保干预既不过度也不不足。
该技术的跨模型适用性通过在120亿参数的Flux.1-dev模型上验证得到确认。使用人类偏好奖励模型HPSv2的实验显示,GARDO在保持高效学习的同时,有效防止了奖励黑客攻击。在DiffusionNFT算法上的测试进一步证明,GARDO的核心原理不依赖特定技术实现,具有广泛适用性。与多目标强化学习方法的对比实验表明,GARDO在避免过度优化的同时,保持了更高的学习效率。
这项研究为AI绘画领域提供了新的解决范式,通过精细化约束机制实现了防止作弊与提升效率的平衡。其核心思想不仅适用于图像生成,对文本、音频、视频等其他AI创作领域也具有启发价值。随着AI技术发展,类似奖励黑客攻击问题可能在其他领域出现,GARDO提供的动态约束框架为应对这类挑战提供了重要参考。









