人工智能领域长期面临空间理解能力的瓶颈,即便最先进的多模态大模型也常在基础空间任务上出错。华中科技大学连世杰、吴长提团队联合多家研究机构,通过让AI系统学习几何知识,成功突破了这一技术壁垒。该研究成果以预印本形式发表于arXiv平台(编号arXiv:2509.24473v2),揭示了几何训练对空间智能提升的显著效果。
研究团队构建的Euclid30K数据集包含近3万个几何问题,涵盖平面几何与立体几何两大领域。数据收集过程中,研究人员发现现有数据集存在严重失衡:立体几何题目仅占现有资源的23%。为此,他们从Geometry3K、MMK12等开源库筛选优质题目,同时新增4500个立体几何问题,重点补充空间关系判断、动态运动分析等复杂题型。经过三阶段质量控制,包括图像去重、问题拆解和格式标准化,最终形成覆盖初中到高中全课程体系的数据集。
几何训练的核心价值在于其系统性。研究团队将几何问题视为空间规律的"训练场",通过GRPO强化学习框架,让AI模型在解题过程中掌握形状识别、空间推理和数值计算等综合能力。实验数据显示,经过几何训练的RoboBrain2.0-7B模型在VSI-Bench测试中准确率达49.6%,超越此前48.4%的最佳纪录。更值得注意的是,该模型仅使用3万条几何数据就达到这一水平,而同期对比模型使用了12万条专用空间数据。
在Super-CLEVR测试中,几何训练展现惊人效果。Qwen2.5VL-7B模型的准确率从76.1%跃升至86.2%,RoboBrain2.0-7B的提升幅度更达37.8个百分点。这种跨越式进步源于几何知识的强迁移性——模型学会的平行判断、比例计算等基础技能,可直接应用于现实场景中的物体定位和空间关系分析。研究团队特别指出,立体几何训练对三维空间理解的提升尤为显著,在Omni3D-Bench测试中,相关模型的空间定位准确率提升2.8个百分点。
技术实现层面,研究团队采用多项创新设计。奖励函数针对不同题型定制评判标准:数学表达式答案通过MathVerify工具进行符号等价验证,数值答案则设置1%的严格误差容忍度。训练过程中,每个问题生成8个候选答案,通过组内比较优化解题策略。这种设计使模型既能掌握数学本质,又能适应不同表达形式。硬件配置上,64块NVIDIA H100 GPU组成的计算集群,为大规模强化学习提供算力支持。
实际应用场景中,几何训练提升的空间智能已展现多重价值。在机器人导航领域,经过训练的模型能更精准判断物体间距和运动轨迹;医疗影像分析方面,AI对器官尺寸的测量误差显著降低;自动驾驶系统则获得更可靠的空间关系判断能力。研究团队强调,这种基础能力训练具有高通用性,相比为每个应用单独收集数据,几何训练方案可降低60%以上的开发成本。
对比实验进一步验证了几何训练的独特优势。使用CLEVR-CoGenT数据集训练的模型虽也有提升,但效果局限于特定任务类型。几何训练的优势在于其覆盖空间智能的核心要素,包括形状识别准确率提升12%、空间关系判断一致性提高18%、数值计算精确度改进9%。这些基础能力的提升,使模型在物体计数、距离估算等基础任务上的准确率普遍提高5-8个百分点。
研究也揭示当前方法的局限性。在涉及时间序列的空间任务中,几何训练的效果相对有限,这提示未来需结合时序学习进行能力拓展。对于需要特定领域知识的复杂空间分析,几何基础训练仍需补充专业数据。尽管如此,该研究为AI空间智能发展开辟了新路径——通过系统化学习基础理论,可高效构建通用空间能力,这种"以简驭繁"的方法论或将成为行业重要方向。