ITBear旗下自媒体矩阵:

上海交大团队新突破:G?RPO技术助力AI绘画更懂人类审美偏好

   时间:2025-11-09 19:31:32 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

上海交通大学、中国科学技术大学、上海人工智能实验室与复旦大学联合团队在AI绘画领域取得突破性进展。研究团队提出的G?RPO技术框架通过创新机制解决了传统AI绘画训练中的两大核心难题,相关成果已发表于arXiv平台(论文编号:arXiv:2510.01982v1)。

传统AI绘画训练存在"反馈模糊"与"评估片面"的双重困境。研究团队将其类比为烹饪教学:厨师仅能在菜品完成后获得整体评价,却无法在烹饪过程中调整火候;同时评判标准仅限于单一视角,忽略了不同光线与距离下的呈现效果。这种训练方式导致模型学习效率低下,难以精准捕捉人类审美偏好。

实验验证环节采用Flux.1-dev流模型作为基础架构,在包含10.37万条训练指令与400条测试指令的HPSv2数据集上展开测试。评估指标覆盖语义契合度、视觉连贯性、美学表现等12个维度。结果显示,G?RPO在核心HPS-v2.1指标上较现有DanceGRPO方法提升6.52%,且该优势在50步、20步、10步等不同生成速度下均保持稳定,证明其兼具效率与质量优势。

在具体应用场景中,新技术展现出显著改进。生成"国际象棋棋子表情"时,模型能精准捕捉棋子面部特征的微妙差异;创作"环保主题海报"时,可准确实现左右分区的空间布局要求。这种提升源于训练效率的优化——单步采样策略使多个样本共享初始计算资源,大幅降低算力消耗。

研究特别关注模型偏好操纵问题。传统方法易导致模型过度适配特定评估标准,出现"偏科"现象。G?RPO通过多粒度评估机制,迫使模型学习通用审美特征,而非简单迎合单一标准。实验表明,该方法生成的图像在不同评估体系下均保持质量稳定性。

从技术架构看,G?RPO具有良好扩展性。研究证实,采用单层、双层或三层评估粒度均可提升性能,为实际部署提供了灵活的资源配置方案。这种设计使系统既能适配高性能计算环境,也可在移动端等资源受限场景运行。

对于内容创作者而言,新技术意味着更高效的协作体验。模型能准确理解创作意图,减少反复修改的次数。普通用户使用AI绘画工具时,将获得更贴合个人审美偏好的生成结果。研究团队透露,该技术已与多家图像生成平台展开合作测试,预计未来12-18个月内逐步推向市场。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version