ITBear旗下自媒体矩阵:

澳大利亚国立大学携手字节跳动,用AI让照片秒变高精度3D模型

   时间:2026-06-27 21:33:41 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

想象一下,只需上传一张心爱物品的照片,就能获得一个细节逼真的3D模型——无论是毛衣的织纹、手表表盘的刻度,还是建筑外墙的砖块纹路,都能被精准还原。这项曾被视为科幻场景的技术,如今正因一项名为FLUX3D的新框架而逐步走向现实。该研究由澳大利亚国立大学与字节跳动联合完成,其核心突破在于解决了3D生成领域长期存在的“外观失真”难题。

当前主流的3D生成方法多采用“稀疏体素表示”技术,即通过分割3D空间为小立方体(体素)来构建模型。这类方法通常分为两步:先确定物体形状轮廓,再填充颜色和纹理等外观信息。然而,实际效果往往不尽如人意——生成的3D模型从正面看尚可,但转到侧面或背面时,纹理会变得模糊甚至错位,细节大量丢失。研究团队深入分析后发现,问题根源在于技术流程中存在两处关键瓶颈:特征提取器对高频细节的过滤,以及2D图片与3D体素信息无法精准对齐。

针对第一处瓶颈,研究团队提出了颠覆性方案:用图像生成扩散模型的特征提取器替代传统的语义识别工具。传统方法使用的DINOv2特征提取器擅长识别物体类别(如“这是一台相机”),但会主动过滤掉纹理、颜色变化等高频细节,因为这些信息对语义理解无益。而FLUX3D采用的FLUX扩散模型特征提取器,其设计目标本身就是“看懂并生成图像”,因此内部特征包含丰富的外观信息,能够完整保留颜色、纹理等细节。实验数据显示,在Toys4k数据集上,使用FLUX特征的模型在PSNR(峰值信噪比)指标上比传统方法提升约2.6分,LPIPS(感知图像质量)指标降低约20%,证明其对外观还原的显著优势。

第二处瓶颈的突破则依赖于两项创新组件:稀疏结构多模态扩散Transformer(SMDiT)和模态感知旋转位置编码(MARoPE)。SMDiT通过“双流-单流”交替处理模式,让2D图片信息和3D体素信息在保留各自结构的同时实现精准交互。具体而言,系统先分别处理两种信息,再通过联合注意力机制让它们互相影响,避免直接混合导致的结构混乱。MARoPE则解决了跨模态位置编码的难题——传统方法依赖精确的相机参数,而MARoPE通过构建“虚拟平面”,将2D图片放置在3D体素网格外侧,使两者处于同一坐标系,利用旋转位置编码的距离衰减特性,自然实现信息对应。这种设计无需相机参数,模型可自行学习2D与3D的对应规律。

在Toys4k数据集的全面评测中,FLUX3D的表现全面领先。其解码器专用版本在PSNR、LPIPS、CLIP分数等核心指标上均优于竞争对手,尤其在包含文字和logo的物体生成上,差距更为明显。例如,传统方法生成的模型在视角变化时,文字容易出现变形或模糊,而FLUX3D能保持颜色准确性和纹理细节的稳定。多视角一致性测试进一步验证了其优势:FLUX3D生成的模型在360度渲染中,各视角的PSNR标准差比传统方法低18%,说明其质量更均匀,不会出现“某个角度好看,其他角度劣化”的情况。

研究团队还通过消融实验验证了每个设计选择的价值。实验表明,FLUX特征、解码器专用架构、SMDiT和MARoPE四个组件缺一不可,任意去除一个都会导致性能显著下降。例如,去掉FLUX特征后,FDincep(一种评估指标)从8.73升至10.96;去掉MARoPE后,该指标升至9.62。模型架构设计的贡献甚至超过特征提取器的替换,说明两者相互加成,共同推动了性能提升。

尽管FLUX3D已取得显著进展,但研究团队也坦言其存在局限。例如,对包含语义文字的对象(如品牌logo),其建模质量仍与专业2D图像生成方法有差距;当前特征体素的构建依赖多视角渲染图,未来需探索利用图像、视频等其他模态信息辅助训练,以进一步提升通用性。不过,这项研究无疑为3D生成领域开辟了新方向——通过将“语义理解”工具替换为“外观还原”工具,并设计专为3D稀疏结构打造的协作机制,FLUX3D让高质量3D内容的生成离普通人更近了一步。未来,当用户上传一张照片时,应用生成的3D模型或许能真正还原照片中的每一个细节,而非仅提供一个模糊的“意象版”。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version