ITBear旗下自媒体矩阵:

英伟达PiD图像生成技术亮相:消费级显卡秒级解码高分辨率图像

   时间:2026-05-27 19:02:54 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

英伟达团队近日宣布推出一项名为PiD(Pixel Diffusion Decoder,像素扩散解码器)的图像生成技术,该技术能够在消费级显卡上实现超高分辨率图像的快速生成与放大。实验数据显示,在单张RTX 5090显卡上,PiD可将512×512分辨率的图像潜变量直接解码并放大至2048×2048像素,峰值显存占用仅为13GB,处理时间不足1秒;若使用GB200 GPU,最快仅需210毫秒。

传统高分辨率图像生成流程通常分为两步:首先在潜在空间生成低分辨率图像,再通过解码器恢复为清晰图像。潜在空间是模型对原始图像进行压缩后的数值表示,虽保留了主体结构与语义信息,但舍弃了大量像素级细节,从而降低了计算成本。然而,传统解码器主要承担“复原”任务,面对百万像素级图像时,其速度与质量均存在显著瓶颈。

PiD的创新之处在于将潜在解码重新定义为条件式像素扩散过程,并将解码与上采样整合至同一生成模块中。这一设计使模型能够在输出阶段主动补足纹理、结构及局部细节。条件式像素扩散通过参考额外输入(如低分辨率图像或语义信息)来约束生成结果,而非完全随机生成,从而提升了可控性与生成质量。

技术实现层面,PiD基于PixelDiT架构构建,并引入轻量级ControlNet风格适配器。该适配器将含噪的潜在表示注入模型,并通过与西格玛相关的门控机制,根据噪声强度动态调整对潜在信息的依赖程度。为进一步优化推理速度,研究团队采用DMD2蒸馏技术,将推理步数压缩至4步,同时配合早停机制,在保证输出质量的前提下显著降低延迟。

PiD的另一大优势是其通用性。该技术不仅支持传统VAE(变分自编码器)生成的潜变量,还可兼容RAE(重建自编码器)路线常用的语义潜变量,如SigLIP和DINOv2。这一特性使其能够适配多种图像生成框架,拓展了应用场景。

与级联式扩散超分方案相比,PiD在端到端延迟上表现优异,最高可提升5.9倍(约6倍),同时视觉保真度更优。实验结果表明,PiD在保持细节丰富度的同时,有效减少了生成过程中的伪影与模糊现象,为高分辨率图像生成领域提供了新的解决方案。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version