一项突破性的人工智能研究近日引发关注,由科研团队开发的DreamPartGen系统实现了3D物体生成领域的重大创新。该系统能够像专业工匠般解析文字描述,将复杂物体拆解为独立部件并精准还原空间关系,为3D建模技术开辟了全新路径。
传统3D生成模型往往将物体视为不可分割的整体,如同用整块材料雕刻的雕像。而DreamPartGen通过独特的"双重部件潜在编码"技术,为每个部件赋予独立身份标识。当用户描述"带有多枚机翼导弹的战斗机"时,系统会分别生成机身、机翼、导弹等独立部件,并自动构建部件间的连接关系,确保导弹准确悬挂于机翼下方。
研究团队构建的"协同潜在去噪"机制是该系统的核心技术。该机制通过三个协调层次实现精密生成:在部件内部确保几何形状与外观材质的统一,在部件间维持尺寸比例与连接角度的匹配,在全局层面保证整体结构符合语言描述。这种分层优化策略使生成过程如同交响乐演奏,每个部件都是独立乐章,最终组合成和谐整体。
支撑系统运行的是包含11000个精细标注物体的PartRel3D数据集。该数据集记录了300万个部件关系三元组,涵盖175类物体的功能连接(如支撑、铰接)和空间关系(如对称、接触)。通过标准化处理,系统能够理解"座位架在四条腿上"与"座位由腿支撑"等不同表述的相同语义,为AI学习提供高质量训练样本。
实验数据显示,DreamPartGen在几何精度和语义匹配度上取得显著突破。其生成的3D模型倒角距离较传统方法降低53%,地球移动距离减少33%,部件交并比指标优化27.2%。在处理罕见部件时,系统渲染质量仅下降0.629个单位,展现出强大的泛化能力。
该技术的模块化设计支持跨物体部件复用。从椅子学习到的"腿"结构可应用于桌子生成,汽车轮子概念能迁移至自行车建模。这种迁移学习能力使单个物体生成时间控制在45秒内,完整场景生成约需52秒,在保证质量的同时维持了合理效率。
在应用场景方面,系统已展现出多领域潜力。游戏开发者可通过文字描述快速构建包含多个物体的3D场景;工业设计师能直接修改特定部件而不影响整体结构;教育领域可创建交互式3D教材,帮助学生理解复杂机械构造。系统对铰接式物体的支持,更使可开合笔记本、可转动机器人关节等动态模型生成成为可能。
尽管系统在非常规物体描述处理和复杂关系解析上仍有改进空间,但其开创性的部件级理解能力已为3D生成技术树立新标杆。研究团队通过开源论文和代码,邀请全球开发者共同探索可控3D生成的新方向,为具身智能和交互式应用场景奠定基础。











