苹果人工智能研究团队近期取得一项突破性进展,成功开发出名为LiTo的3D生成大模型。这项技术通过创新性的数学编码方式,实现了仅凭单张二维图像即可生成具有完整光影效果的立体模型,为三维内容创作领域开辟了新的可能性。
该模型的核心突破在于构建了统一的3D潜在表示体系。研究团队将复杂的表面光场数据转化为紧凑的向量集合,通过潜在空间编码技术,既保留了物体的几何特征,又精确描述了光线与材质的交互规律。这种编码方式使系统能够同时处理几何结构与视觉表现两个维度的信息。
在技术架构上,LiTo采用双向编码器-解码器结构。编码器模块负责从输入图像中提取物体的三维特征,包括空间轮廓与材质属性;解码器模块则通过逆向运算,精准还原出包含镜面反射、菲涅尔效应等高级光学现象的立体模型。这种设计确保了生成结果在多视角下的光影一致性。
训练过程中使用的三维数据集包含数千个不同物体的扫描数据。实验数据显示,该模型在摄像机坐标系对齐方面表现优异,有效解决了传统方法中常见的物体朝向错误问题。在多视角光影一致性评估中,LiTo的得分较现有最优模型TRELLIS提升约37%,展现出显著的技术优势。
这项成果对三维内容创作具有重要价值。通过降低3D建模的技术门槛,LiTo可为增强现实应用提供更丰富的素材资源,特别在空间计算设备领域,其生成的高质量3D模型能够显著提升虚拟场景的真实感与沉浸度。研究团队表示,该技术未来有望拓展至更多需要三维重建的工业应用场景。










