ITBear旗下自媒体矩阵:

香港科大SpatialGen技术突破:文字或图片秒变可漫游3D室内场景

   时间:2025-09-28 00:22:29 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

只需对着电脑说一句“我想要一个北欧风格的卧室”,几分钟后,一个细节逼真的3D房间便呈现在屏幕上,不仅能360度自由查看,连窗帘的褶皱和地板的纹理都清晰可见。这并非科幻电影中的场景,而是香港科技大学研究团队与Manycore Tech Inc.公司合作研发的SpatialGen技术带来的现实突破。这项发表于arXiv平台(编号2509.14981v2)的研究,正在重新定义人工智能在三维空间设计领域的能力边界。

传统3D建模如同手工雕刻,设计师需花费数周甚至数月调整每个细节,而现有自动生成方法虽能提速,却常陷入“玩具屋”困境——要么布局呆板如积木拼接,要么视角转换时出现家具“变形”。SpatialGen的突破在于找到了真实感与灵活性的平衡点:其生成的场景既拥有照片级质感,又能确保从任意角度观察都符合物理规律。研究团队通过构建全球最大规模的室内场景数据集,为AI提供了超过470万张全景图像的“学习素材”,涵盖客厅、厨房、书房等10类空间,总计5.7万个独立房间。

该技术的核心是一个能同时处理文字、图像和空间坐标的多模态生成系统。当用户输入“现代简约客厅”的文本描述或上传一张参考图片时,系统会先解析3D房间布局中的基础结构,再通过创新的交替注意力机制协调不同视角的信息。这一机制如同经验丰富的建筑师,既能确保从各个角度看到的沙发保持一致,又能协调颜色、几何形状与语义标签的精准对应。例如,在生成书房场景时,系统能同时处理书架的RGB图像、空间位置坐标以及“书籍”“台灯”等语义标签,避免出现视角切换时物品错位的问题。

数据集的构建过程堪称一场“数字考古”。研究团队从专业设计平台筛选出1.2万个真实项目,为每个场景规划物理合理的摄像机轨迹,每隔0.5米采集一次数据,最终生成包含颜色、深度、法线等信息的全景图像。为保证数据质量,他们制定了严格标准:只保留面积超过8平方米、包含3种以上独特物体的房间,并将6.5万个原始物体类别映射为62个通用类别。这种筛选方式确保了AI既能学习到“沙发靠墙摆放”的普遍规律,又能掌握不同风格的空间设计技巧。

在技术实现上,研究团队开发了场景坐标图变分自编码器(SCM-VAE),通过引入多尺度梯度损失函数,解决了传统图像编码器在处理几何信息时的失真问题。生成过程采用迭代密集视角策略,系统会逐步完善场景的全局点云,每次迭代时将已有点云投影到新视角,结合不确定性图过滤低质量数据。最终通过基于RaDe-GS的3D重建技术,将多视角图像转化为包含语义信息的3D高斯点云,实现7000步内快速收敛的高保真重建。

实验数据显示,SpatialGen在文本到3D生成任务中全面超越分数蒸馏方法(SDS)。当在组合数据集上训练时,其图像奖励分数较SceneCraft提升12%,FID分数降低18%。在图像到3D生成测试中,系统能处理前进、内向、外向和随机游走四种摄像机轨迹,其中内向轨迹生成的场景语义一致性最高,外向轨迹在创新布局上表现突出。与专门优化单一全景图的Ctrl-Room相比,SpatialGen的优势在于支持自由视角浏览,且生成的新视角图像质量提升23%。

这项技术的价值已超越学术范畴。在游戏开发领域,设计师可通过文字描述快速生成数百种室内场景;在虚拟装修应用中,用户上传房间照片后,系统能自动生成多种风格的设计方案;机器人研究机构则利用其生成多样化训练环境,提升导航算法的泛化能力。研究团队已开源数据集和模型代码,为行业提供基础工具。尽管当前系统在处理超复杂场景时仍需优化计算效率,但其展现的多模态理解与生成能力,正为三维空间设计开辟全新可能。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version