滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

字节跳动GRN革新AI图像生成：模拟画家创作，动态优化生成质量与效率

时间：2026-04-23 01:20:21 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

字节跳动研究团队提出了一种名为生成式精化网络（GRN）的新型图像生成框架，在图像生成领域引发关注。这一框架突破了现有主流方法的局限，为AI创作带来了新的思路。

当前，AI生成图像主要依赖扩散模型和自回归模型。扩散模型的工作方式类似反向播放“把画搅乱”的视频，训练时将清晰图像逐渐加入噪声直至杂乱，生成时则反向还原。但无论生成简单还是复杂的图像，它都需要固定的步数，无法根据内容复杂程度调整计算资源，效率较低。自回归模型借鉴了大语言模型“预测下一个词”的思路，将图像切成小块依次预测。然而，图像需先被压缩成离散的“图块编码”，这一过程会损失细节，且预测严格按顺序进行，前面的块一旦确定就无法更改，错误会不断累积。

为解决这些问题，GRN模仿人类画家的创作方式，先勾勒轮廓，再逐步细化，随时可擦掉不满意的地方重画。其生成过程从一张完全随机的“乱码图”开始，每一步观察当前画布状态，对所有位置同时做出完整预测，然后随机挑选部分新预测结果“落笔”到画布上，剩余位置重新设为随机乱码等待下一轮。这种机制将“落笔填充”“精化改进”和“擦除重来”三种操作统一起来，随着迭代步数增加，可靠预测覆盖比例逐渐上升，最终整张画收敛到完整清晰状态。与传统自回归模型不同，GRN没有任何位置的预测是“永久锁定”的，每一步都可重新审视整张画，纠正早期错误。

在图像编码方面，GRN采用了层级二进制量化（HBQ）方法。通常，AI生成模型会用“变分自编码器”（VAE）将高分辨率图像压缩成“潜在空间”的数学表示，连续表示精度高但不适合逐步预测，离散代码适合预测但会损失细节。HBQ则巧妙地平衡了两者，它把VAE输出的每个连续数值，通过多轮“大/小”的二进制判断，转换成一串01序列。轮数越多，编码越精确，且编码所需“通道数”不增加。实际测试中，仅使用4轮HBQ的图像专用编码器，在ImageNet 256×256的图像重建测试中取得了0.56的rFID分数，显著优于多种其他编码器。

GRN还具备根据生成内容难度自动分配计算资源的能力。每一步生成时，GRN会计算当前预测结果的“熵值”，熵越低说明模型越自信、内容越简单，熵越高说明模型越迷茫、内容越复杂。系统根据熵值动态决定后续步数，在设定的最小步数和最大步数之间灵活分配。实验显示，超过62.7%的图像在不到最大步数时就达到了令人满意的质量，有效减少了简单内容的计算浪费，这种策略在文本生成图像任务中同样适用。

GRN支持两种预测目标，即GRNind和GRNbit。GRNind把每个位置的HBQ编码结果合并成一个整数编号进行预测，GRNbit则直接逐位预测每个二进制值。在简单图像分类条件生成任务上，两种方式表现相当；在复杂文本生成视频任务上，预测二进制位的方式产生的视觉瑕疵更少。研究团队还比较了“预测绝对值”与“预测差值”两种策略，发现预测绝对值的方式在生成结构稳定性方面更好。

在实验结果方面，GRN表现优异。在ImageNet 256×256的类别条件图像生成任务上，不同规模的GRN模型均超越了当前最先进方法。在文本生成图像任务上，GRN使用20亿参数、基于约8000万图像数据训练，在Geneval基准测试上取得了0.76的综合分数，在同等参数规模的方法中处于领先位置。在文本生成视频任务上，GRN使用20亿参数，在VBench综合评分上超越了多种其他方法。

不过，GRN目前也存在一些不足。由于计算资源限制，它尚未被训练到与当前最顶尖视觉生成模型同等的规模，整体质量上限尚未得到充分验证。在视频生成方面，生成具有丰富视觉细节的自然场景或非人物主导的内容时，有时会出现细节不够丰富或局部失真的问题，这主要与训练数据的分布不均衡有关。

对于GRN的后续发展，研究团队提出了将“步数蒸馏”技术引入GRN的想法，有望进一步降低生成成本。同时，GRN作为完全基于离散文本式token的自回归框架，与现有大语言模型的整合非常自然，有望在一个模型内同时实现多模态理解和生成能力。有兴趣深入了解的读者，可通过arXiv编号2604.13030找到完整论文。

更多>同类资讯

宝马集团高层齐聚北京全球首秀三款新世代车型开启AI出行新体验

04-23

新掌门特努斯上任，苹果AI新征程开启，能否再创世界新奇迹？

04-23

打破AI训练"铁律"：旧数据回放如何让大模型训练既省电又高效？

04-23

全新AI技术ZipMo：剥离画面“看透”运动，视频预测效率飙升

04-23

华为加拿大团队新突破：失真图让AI“看图”从整体到局部更精准

04-23

千万网红蓝战非回归带货成绩亮眼，从游戏达人到旅行博主的蜕变之路

04-23

鸿蒙智行四车齐发：尚界问界攻年轻市场，智界M9稳高端格局

04-23

京东“独狼”第六代智能配送车Plus版亮相：载重续航升级，L4级自动驾驶引领物流新变革

04-23

中国移动5G-A超级上行启航：千兆上行赋能新场景加速智能化升级

04-23

俞敏洪邀10名东方甄选会员2027年共赴南极，费用平台承担引关注

04-23

科技轮回：从黑窗口到AI时代，CLI复兴或开启人机交互新纪元

04-23

2025拍照手机大比拼！OPPO、iPhone等热门机型谁更胜一筹？

后置摄像头方面，标准版是强悍的三摄组合，Pro 版更是升级为四摄，2 亿像素 HP5 长焦镜头，长焦拍摄能力十分突出。综合来看，OPPOFind X9 系列在长焦、前置拍照清晰度、拍照防抖等多个方面都有出…

04-23

成本飙升行业承压，OPPO Find X9s Pro成年内不涨价旗舰“孤勇者”

但在价格上，OPPO却没有涨价。早在今年2月，三星发布Galaxy S26系列时，相比上一代已涨价1000元；荣耀MagicV6虽然守住了8999元的起售价，但16GB高内存版本也涨价近千元。在此情况下…

04-23

成本攀升压力下不涨价！OPPO刘作虎：Find X9s Pro成年内旗舰“性价比之选”

04-22

金标联盟携手vivo等厂商推进“公平运行内存机制” 助力安卓应用优化升级

04-22

点击查看更多 +

全站最新

钛动科技获农行百亿授信！一张对民营AI科技企业的"信心投票"

公告精选︱顾家家居：拟不超11.88亿元投资建设产业总部项目；沪电股份：一季度净利润12.42亿元同比增长62.9%

江西铜业股份(00358.HK)获贝莱德增持3.4万股

京东AI新探索：实习生挑大梁，大厂抢人从“0到1”培养开始

盒马自研一体化牛奶新包装，减纸超四成，环保与体验双提升

京东与松延动力强强联合共绘人形机器人全场景应用与普及新蓝图

热门内容

本栏最新

京东AI新探索：实习生挑大梁，大厂抢人从“0到1”培养开始

盒马自研一体化牛奶新包装，减纸超四成，环保与体验双提升

京东与松延动力强强联合共绘人形机器人全场景应用与普及新蓝图

“先爆再圆”成套路：热搜是传播利器还是信任“杀手”？

雷军官宣2026北京车展小米汽车参展阵容概念车国内首秀现场还能领车模与饮用水

雷军揭晓2026北京车展小米参展车型：SU7系列与VGT概念车齐聚首秀

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.