滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

澳大利亚国立大学携手字节跳动，用AI让照片秒变高精度3D模型

时间：2026-06-27 21:33:41 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

想象一下，只需上传一张心爱物品的照片，就能获得一个细节逼真的3D模型——无论是毛衣的织纹、手表表盘的刻度，还是建筑外墙的砖块纹路，都能被精准还原。这项曾被视为科幻场景的技术，如今正因一项名为FLUX3D的新框架而逐步走向现实。该研究由澳大利亚国立大学与字节跳动联合完成，其核心突破在于解决了3D生成领域长期存在的“外观失真”难题。

当前主流的3D生成方法多采用“稀疏体素表示”技术，即通过分割3D空间为小立方体（体素）来构建模型。这类方法通常分为两步：先确定物体形状轮廓，再填充颜色和纹理等外观信息。然而，实际效果往往不尽如人意——生成的3D模型从正面看尚可，但转到侧面或背面时，纹理会变得模糊甚至错位，细节大量丢失。研究团队深入分析后发现，问题根源在于技术流程中存在两处关键瓶颈：特征提取器对高频细节的过滤，以及2D图片与3D体素信息无法精准对齐。

针对第一处瓶颈，研究团队提出了颠覆性方案：用图像生成扩散模型的特征提取器替代传统的语义识别工具。传统方法使用的DINOv2特征提取器擅长识别物体类别（如“这是一台相机”），但会主动过滤掉纹理、颜色变化等高频细节，因为这些信息对语义理解无益。而FLUX3D采用的FLUX扩散模型特征提取器，其设计目标本身就是“看懂并生成图像”，因此内部特征包含丰富的外观信息，能够完整保留颜色、纹理等细节。实验数据显示，在Toys4k数据集上，使用FLUX特征的模型在PSNR（峰值信噪比）指标上比传统方法提升约2.6分，LPIPS（感知图像质量）指标降低约20%，证明其对外观还原的显著优势。

第二处瓶颈的突破则依赖于两项创新组件：稀疏结构多模态扩散Transformer（SMDiT）和模态感知旋转位置编码（MARoPE）。SMDiT通过“双流-单流”交替处理模式，让2D图片信息和3D体素信息在保留各自结构的同时实现精准交互。具体而言，系统先分别处理两种信息，再通过联合注意力机制让它们互相影响，避免直接混合导致的结构混乱。MARoPE则解决了跨模态位置编码的难题——传统方法依赖精确的相机参数，而MARoPE通过构建“虚拟平面”，将2D图片放置在3D体素网格外侧，使两者处于同一坐标系，利用旋转位置编码的距离衰减特性，自然实现信息对应。这种设计无需相机参数，模型可自行学习2D与3D的对应规律。

在Toys4k数据集的全面评测中，FLUX3D的表现全面领先。其解码器专用版本在PSNR、LPIPS、CLIP分数等核心指标上均优于竞争对手，尤其在包含文字和logo的物体生成上，差距更为明显。例如，传统方法生成的模型在视角变化时，文字容易出现变形或模糊，而FLUX3D能保持颜色准确性和纹理细节的稳定。多视角一致性测试进一步验证了其优势：FLUX3D生成的模型在360度渲染中，各视角的PSNR标准差比传统方法低18%，说明其质量更均匀，不会出现“某个角度好看，其他角度劣化”的情况。

研究团队还通过消融实验验证了每个设计选择的价值。实验表明，FLUX特征、解码器专用架构、SMDiT和MARoPE四个组件缺一不可，任意去除一个都会导致性能显著下降。例如，去掉FLUX特征后，FDincep（一种评估指标）从8.73升至10.96；去掉MARoPE后，该指标升至9.62。模型架构设计的贡献甚至超过特征提取器的替换，说明两者相互加成，共同推动了性能提升。

尽管FLUX3D已取得显著进展，但研究团队也坦言其存在局限。例如，对包含语义文字的对象（如品牌logo），其建模质量仍与专业2D图像生成方法有差距；当前特征体素的构建依赖多视角渲染图，未来需探索利用图像、视频等其他模态信息辅助训练，以进一步提升通用性。不过，这项研究无疑为3D生成领域开辟了新方向——通过将“语义理解”工具替换为“外观还原”工具，并设计专为3D稀疏结构打造的协作机制，FLUX3D让高质量3D内容的生成离普通人更近了一步。未来，当用户上传一张照片时，应用生成的3D模型或许能真正还原照片中的每一个细节，而非仅提供一个模糊的“意象版”。

更多>同类资讯

阿里通义团队构建Qwen-AgentWorld，为AI智能体打造“虚拟练功房”

06-27

清华等多机构联合研究：EDV框架助力AI跳出“自我确认陷阱”实现高效学习

06-27

马斯克质疑IBM 0.7纳米芯片命名：应按原子数定名才准确

06-27

联想摩托罗拉海外推出Moto Pad 70 Pro平板：骁龙芯加持，7月4日印度开售

06-27

豆包输入法iOS版升级：启动更快预测更准

06-27

苹果上调产品售价马斯克公开声援库克：这辈子没见过这么大涨幅

06-27

阿里推出CosyVoice输入法：支持全场景口述！一键成稿

06-27

SpaceX，拟收购光模块公司

06-27

老黄：Prompt已死，整个AI圈都在疯狂追Loop

06-27

硅谷AI圈风向大变：Prompt退场，Loop成新宠引领技术新潮流

06-27

OpenAI推出GPT-5.6系列：天体命名新体系，Sol登顶编程测试榜首

06-27

SpaceX拟收购光模块初创公司Mesh 助力数据中心与太空算力布局

06-27

太空经济“长短板”博弈：阿姆达尔定律下制造环节为何成文明跨越关键？

它刚刚起步，处于S曲线底部那一段几乎看不见的爬升期：成本在20年间降低了85%以上（猎鹰9号），星舰更是剑指99%以上的降幅；SpaceX以史无前例的规模筹集资金——IPO 750亿美元，首笔公司债250亿美…

06-27

美论坛叫嚣击落中国空间站：嘴炮难掩焦虑，中国航天稳步前行赢未来

在美国某个专注航天话题的网络论坛上，曾出现过一句格外刺耳的留言——如果北京不点头允许美方踏入中国空间站的舱门，那么美国就有资格将这座轨道平台从天上敲下来。按目前披露的飞行节奏，2026年中国还计划两次载人发射…

06-27

领航者号就位！长征十号乙火箭蓄势待发网系回收开启复用火箭新篇章

该船的主要任务，是承担长征十号甲系列火箭一子级的海上着陆与回收工作。从这个角度来看，它的首飞不仅仅是一次普通发射，更可以理解为整个长征十号系列火箭体系的一次实战级预演。更重要的是，这次任务不仅要实现入轨，还必…

06-27

点击查看更多 +

全站最新

家庭智能新选择：天猫精灵、小度X10 Ultra、小米Sound三款音箱大比拼

高通骁龙8E6系列9月登场：2nm工艺加持，小米18系列两款机型率先搭载

小米Sound Pro对比华为Sound X4：解锁AI音箱核心功能与音质新体验

小米智能音箱Pro和Sound Pro深度测评：帮你找到最适合的AI音箱之选

小米REDMI K90至尊版6月30日发布，游戏性能拉满，老机型电池升级服务也来了

手机市场迎涨价潮！刚需用户宜早入手，非刚需用户可静待价格回落

热门内容

本栏最新

家庭智能新选择：天猫精灵、小度X10 Ultra、小米Sound三款音箱大比拼

高通骁龙8E6系列9月登场：2nm工艺加持，小米18系列两款机型率先搭载

小米Sound Pro对比华为Sound X4：解锁AI音箱核心功能与音质新体验

小米智能音箱Pro和Sound Pro深度测评：帮你找到最适合的AI音箱之选

小米REDMI K90至尊版6月30日发布，游戏性能拉满，老机型电池升级服务也来了

手机市场迎涨价潮！刚需用户宜早入手，非刚需用户可静待价格回落

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.