滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

斯坦福等高校联合研究：AI作图难题获突破，训练效率与质量双提升

时间：2026-05-06 20:08:00 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

斯坦福大学、清华大学、宾夕法尼亚大学及亚马逊前沿AI研究院联合发布了一项突破性研究，通过改进强化学习后训练技术，显著提升了AI图像生成模型的训练效率与生成质量。相关成果以预印本形式发布，论文编号为arXiv:2604.23380，代码已开源供全球研究者复现验证。

扩散模型作为当前主流的AI图像生成技术，其工作原理类似于逐步去除图像噪点，最终还原出清晰画面。然而，这类模型在生成复杂场景时仍存在缺陷，例如画面元素错位、文字渲染错误或与指令不符等问题。为此，研究人员探索在模型预训练后引入强化学习进行“精调”，通过奖励机制引导模型生成更符合人类审美的结果。但传统强化学习方法在扩散模型上应用时面临计算复杂度高的难题，导致训练效率低下且稳定性不足。

研究团队聚焦于扩散模型训练中的“概率难题”——由于生成过程涉及数十甚至上百步去噪操作，精确计算模型生成特定图像的概率在数学上几乎不可行。现有方法分为两类：一类将生成过程拆解为马尔可夫决策过程，通过精确计算每一步概率实现优化，但存在训练收敛慢、灵活性差等问题；另一类采用ELBO近似方法，虽实现简单却因方差过大导致训练不稳定，长期被主流研究忽视。

针对ELBO近似的缺陷，研究团队提出三项关键技术创新。首先，通过“组内共享时间步-噪声对”技术，确保同一文本提示生成的多张图片使用完全相同的时间步采样，消除随机性干扰；其次，采用“分层时间步采样”策略，将整个去噪过程划分为多个区间，每个区间选取一个时间步，保证采样均匀性；最后，引入“自适应损失权重”机制，对不同时间步的损失进行归一化处理，平衡梯度贡献。这些技术将ELBO方差的变异系数从0.230降至0.128，使训练信号得以清晰传递。

为防止梯度更新步幅过大导致模型偏离正确方向，研究团队还设计了三重保障机制：继承自PPO算法的“重要性比率截断”技术，通过限制概率比值范围防止单次更新过度；“KL散度惩罚”方法，利用行为策略作为参考模型，在保留早期能力的同时抑制过度优化；“优势软截断”策略，针对完全在线训练场景，通过双曲正切函数平滑极端优势值，避免梯度爆炸。这些技术可根据不同训练需求灵活组合使用。

在实验验证环节，研究团队选取FLUX.1-dev和Stable Diffusion 3.5 Medium两个主流模型进行测试。结果显示，V-GRPO算法在FLUX.1-dev上仅需150次迭代即达到MixGRPO 300次迭代的效果，训练速度提升2倍；在Stable Diffusion 3.5 Medium上，580次梯度更新即可实现传统方法1700次迭代的水准，效率提升近3倍。更引人注目的是，经过V-GRPO训练的模型在关闭分类器引导后仍能生成高质量图像，表明强化学习过程已隐式完成“引导蒸馏”，使模型具备内化的生成能力。

消融实验进一步验证了各项技术的有效性。在FLUX.1-dev模型上，移除任何一项方差降低技术都会导致训练崩溃；而在Stable Diffusion 3.5 Medium上，虽然单独技术缺失不影响稳定性，但三者协同作用时性能最佳。研究还发现，ELBO估算中使用的时间步-噪声对数量存在收益递减效应，4个采样点即可实现稳定训练，过多采样反而提升有限。

这项研究为AI图像生成领域提供了新的技术路径。通过优化ELBO近似方法，研究人员证明了简单技术经过工程改进后，其性能可超越复杂算法。对于普通用户而言，这意味着未来AI图像生成工具的训练成本将进一步降低，生成速度与质量持续提升，同时模型对复杂指令的理解能力也将显著增强。该研究的代码已在GitHub平台公开，研究者可自由下载运行以验证实验结果。

更多>同类资讯

高盛报告：AI智能体经济拐点将至，成本与利润曲线重塑行业未来

05-06

李飞飞联创AI游戏公司Astrocade：5600万美元助力，游戏创作零门槛时代来临

05-06

CLA反哺全球显成效奔驰深耕中国加速电动化与智能化转型

以CLA为代表的中国研发成果，引领反哺全球市场！

05-06

苹果iOS 27重大更新：引入第三方AI模型，打破Siri等系统功能封闭生态

05-06

小米REDMI新机来袭：7英寸2K屏配3nm芯片，万级大电池年底登场

05-06

小米REDMI新机或年底亮相：3nm芯片搭配万级大电池国产手机大电池混战将启

05-06

苹果iOS 27新功能来袭：开放第三方AI模型选择构建多元AI生态

05-06

苹果iOS 27即将亮相WWDC：七大新功能革新体验智能升级引领潮流

05-06

华为5月7日海外新品发布会来袭，nova 15 Max携大电池等配置亮相

05-06

小米首款增程全尺寸SUV“SKYNOMAD”谍照流出，家庭市场新选择下半年发布

PChome5月6日消息，据博主@SugarDesign在微博上展示了疑似小米首款增程全尺寸SUV“SKYNOMAD（寻天）”的低伪装路试谍照，新车内部代号为“昆仑N3”，定位低于小米主汽车品牌，不使用小米车…

05-06

Claude新功能Orbit曝光：主动AI助手，开启工作无缝对接新体验

05-06

智屏“三位一体”生态构建大屏营销新范式，助力品牌破圈增长有新招

05-06

家居消费新选择：上海实体展厅如何成为“信任”与“品质”的双重保障

05-06

雷军：新一代SU7锁单已超80000台

05-06

70亿，保时捷把布加迪卖了

05-06

点击查看更多 +

全站最新

CLA反哺全球显成效奔驰深耕中国加速电动化与智能化转型

小米首款增程全尺寸SUV“SKYNOMAD”谍照流出，家庭市场新选择下半年发布

智屏“三位一体”生态构建大屏营销新范式，助力品牌破圈增长有新招

家居消费新选择：上海实体展厅如何成为“信任”与“品质”的双重保障

云南电网携手华为SPN：数智赋能，打造电力通信新“高速路”

上海非织造布展：科学布局展位空间精准视觉营销助力品牌破圈

热门内容

本栏最新

家居消费新选择：上海实体展厅如何成为“信任”与“品质”的双重保障

48天锁单破8万！小米SU7用销量实力回击质疑

小米电动平衡车双雄登场：2026款与mini款，哪款更适合你的出行需求？

小米新一代SU7：48天锁单破8万，日均新增超1600台，市场热度持续攀升

2026Q1中国学习平板市场：作业帮稳居榜首，中端AI机型成市场新宠

2026北京车展：科大讯飞以星火大模型领航智能座舱新未来

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.