ITBear旗下自媒体矩阵:

字节跳动GRN革新AI图像生成:模拟画家创作,动态优化生成质量与效率

   时间:2026-04-23 01:20:21 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

字节跳动研究团队提出了一种名为生成式精化网络(GRN)的新型图像生成框架,在图像生成领域引发关注。这一框架突破了现有主流方法的局限,为AI创作带来了新的思路。

当前,AI生成图像主要依赖扩散模型和自回归模型。扩散模型的工作方式类似反向播放“把画搅乱”的视频,训练时将清晰图像逐渐加入噪声直至杂乱,生成时则反向还原。但无论生成简单还是复杂的图像,它都需要固定的步数,无法根据内容复杂程度调整计算资源,效率较低。自回归模型借鉴了大语言模型“预测下一个词”的思路,将图像切成小块依次预测。然而,图像需先被压缩成离散的“图块编码”,这一过程会损失细节,且预测严格按顺序进行,前面的块一旦确定就无法更改,错误会不断累积。

为解决这些问题,GRN模仿人类画家的创作方式,先勾勒轮廓,再逐步细化,随时可擦掉不满意的地方重画。其生成过程从一张完全随机的“乱码图”开始,每一步观察当前画布状态,对所有位置同时做出完整预测,然后随机挑选部分新预测结果“落笔”到画布上,剩余位置重新设为随机乱码等待下一轮。这种机制将“落笔填充”“精化改进”和“擦除重来”三种操作统一起来,随着迭代步数增加,可靠预测覆盖比例逐渐上升,最终整张画收敛到完整清晰状态。与传统自回归模型不同,GRN没有任何位置的预测是“永久锁定”的,每一步都可重新审视整张画,纠正早期错误。

在图像编码方面,GRN采用了层级二进制量化(HBQ)方法。通常,AI生成模型会用“变分自编码器”(VAE)将高分辨率图像压缩成“潜在空间”的数学表示,连续表示精度高但不适合逐步预测,离散代码适合预测但会损失细节。HBQ则巧妙地平衡了两者,它把VAE输出的每个连续数值,通过多轮“大/小”的二进制判断,转换成一串01序列。轮数越多,编码越精确,且编码所需“通道数”不增加。实际测试中,仅使用4轮HBQ的图像专用编码器,在ImageNet 256×256的图像重建测试中取得了0.56的rFID分数,显著优于多种其他编码器。

GRN还具备根据生成内容难度自动分配计算资源的能力。每一步生成时,GRN会计算当前预测结果的“熵值”,熵越低说明模型越自信、内容越简单,熵越高说明模型越迷茫、内容越复杂。系统根据熵值动态决定后续步数,在设定的最小步数和最大步数之间灵活分配。实验显示,超过62.7%的图像在不到最大步数时就达到了令人满意的质量,有效减少了简单内容的计算浪费,这种策略在文本生成图像任务中同样适用。

GRN支持两种预测目标,即GRNind和GRNbit。GRNind把每个位置的HBQ编码结果合并成一个整数编号进行预测,GRNbit则直接逐位预测每个二进制值。在简单图像分类条件生成任务上,两种方式表现相当;在复杂文本生成视频任务上,预测二进制位的方式产生的视觉瑕疵更少。研究团队还比较了“预测绝对值”与“预测差值”两种策略,发现预测绝对值的方式在生成结构稳定性方面更好。

在实验结果方面,GRN表现优异。在ImageNet 256×256的类别条件图像生成任务上,不同规模的GRN模型均超越了当前最先进方法。在文本生成图像任务上,GRN使用20亿参数、基于约8000万图像数据训练,在Geneval基准测试上取得了0.76的综合分数,在同等参数规模的方法中处于领先位置。在文本生成视频任务上,GRN使用20亿参数,在VBench综合评分上超越了多种其他方法。

不过,GRN目前也存在一些不足。由于计算资源限制,它尚未被训练到与当前最顶尖视觉生成模型同等的规模,整体质量上限尚未得到充分验证。在视频生成方面,生成具有丰富视觉细节的自然场景或非人物主导的内容时,有时会出现细节不够丰富或局部失真的问题,这主要与训练数据的分布不均衡有关。

对于GRN的后续发展,研究团队提出了将“步数蒸馏”技术引入GRN的想法,有望进一步降低生成成本。同时,GRN作为完全基于离散文本式token的自回归框架,与现有大语言模型的整合非常自然,有望在一个模型内同时实现多模态理解和生成能力。有兴趣深入了解的读者,可通过arXiv编号2604.13030找到完整论文。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version