电子游戏中的精致场景、电影里栩栩如生的特效,背后都离不开三维模型的支撑。传统三维建模依赖专业设计师使用软件手动“捏”出模型,这一过程耗时费力,且对设计师的艺术审美和技术编程能力要求极高。随着人工智能技术发展,一种新思路应运而生——让AI直接编写代码生成三维模型,这种被称为“程序化三维建模”的方式,正逐渐改变三维建模领域。
程序化三维建模的核心在于用可执行的程序代码描述三维物体的构造方式。与普通AI图像生成不同,后者生成的是像素集合的图片,虽美观却无法直接用于游戏引擎、3D打印或从任意角度查看。而程序化三维建模生成的代码,经Blender等专业软件编译后,能得到真实的三维网格模型,可任意旋转、修改细节,甚至随机生成风格相近但细节不同的变体。
尽管业界已有不少探索让AI驱动三维建模软件的尝试,如Anthropic计划让旗下模型Claude直接操控Blender,但缺乏公认的严格评测标准,难以判断AI的实际表现。为填补这一空白,研究团队推出了3DCodeBench评测平台和3DCodeArena公开投票平台,构建了该领域目前最全面的评测体系。
以Blender 5.0为平台,程序化三维建模在Blender中通过Python代码精确描述物体的每一部分。AI生成的代码经Blender“翻译”后,可生成真实的三维网格模型。这一过程类似从建筑图纸和施工说明建造房子,不仅能看到外观,还能按图纸重建或修改。这种能力在游戏开发、工业设计等领域价值巨大,但对AI而言,需同时掌握理解用户意图、熟悉Blender API及具备三维空间几何推理能力,挑战不小。
为评测AI能力,研究团队构建了包含26000个样本的数据集。这些数据源于Infinigen开源程序化场景生成系统,团队将其复杂的“工厂代码”转换为独立可执行的Blender Python脚本,并配上文字描述和参考图片。这一转换过程并非简单复制,因原始代码结构复杂,团队设计了包含代码简化器、模拟器、视觉评审员、网格分析器等AI工具的“智能流水线”,并辅以“经验库”持续优化。最终,每个样本经人工审核后进入数据集,涵盖212个物体类别,为未来研究提供训练数据。
研究团队发现,测试案例的难度远超现有其他基准测试。数据集中脚本平均代码行数为531行,中位数387行,复杂生物或精细室内物件的代码长度甚至超过1000行。这与仅用几何基本体拼出简单形状或考察体素网格搭建模型的简单基准测试形成鲜明对比,3DCodeBench要求AI具备真正的几何推理能力。
在评测体系设计上,研究团队采用客观评分与主观评分相结合的方式。客观评分包括代码能否正常执行的“可执行率”,以及通过外观相似度评测和三维几何结构比较。主观评分则通过3DCodeArena平台,让真实用户投票选择更优模型,用Bradley-Terry算法将投票结果转换为Elo分数形成排行榜。
研究团队对12个当前最先进的视觉语言模型进行了评测。从可执行率看,Claude Opus 4.7以91%居首,GPT-5.5以90.6%紧随其后;从人类偏好Elo排名看,GPT-5.5以1163分高居榜首,Gemini 3.5 Flash以1119分位居第二。在性价比方面,Gemini 3.5 Flash每次查询约0.04美元,成本仅为GPT-5.5的八分之一,Elo分数仅低约44分,四个最具性价比的节点均为Gemini模型。
尽管部分模型代码执行率较高,但生成的三维模型仍存在缺陷。研究发现,约85%-90%的执行失败源于AI使用Blender旧版API导致接口不兼容。即便代码正常运行,模型也普遍存在几何部件“悬浮”或“断开”,以及过于简化等问题。这表明现有AI虽能写出语法正确的代码,但在理解物体三维空间构成整体方面仍有提升空间。
研究团队还进行了一系列变量控制实验。关于“思考时间”,轻量级模型增加思考时间可显著提升可执行率,而顶尖模型提升有限。关于“输入图片数量”,增加参考图片数量对生成质量提升几乎可忽略。然而,多轮错误反馈实验结果令人振奋,所有模型平均可执行率从69.2%跃升至97.2%,生成质量也同步提升。
给AI配上“智能编程助手”后,可执行率进一步提升,但生成模型质量对已成功执行的案例几乎无变化。这表明自动化“修修补补”能修复API报错,却无法让AI真正理解三维几何。在视觉自我审查实验中,文字到3D轨道上普遍有效,而图片到3D轨道上模型普遍变差,原因在于指标的天花板效应。
研究团队还探讨了自动评分能否代替人工投票的问题。用AI看渲染图模式判断结果与人工投票准确率在62.5%到64.7%之间,看代码模式表现逊色。同时,SigLIP-2和DINOv3两个指标与人类偏好高度吻合,在大多数情况下可代表人类审美判断。











