商汤科技近日宣布,正式推出并开源其全新空间智能大模型系列SenseNova-SI,在空间理解与推理能力方面实现重要突破。该系列模型在多项权威基准测试中表现优异,不仅显著超越同量级开源多模态模型,更在空间智能任务上领先于GPT-5、Gemini 2.5 Pro等国际顶尖闭源模型。
当前主流大模型虽在知识问答、文本生成、逻辑推理等领域表现突出,但在处理空间结构信息时仍存在明显短板。这种能力缺陷直接限制了具身智能体与物理世界交互的效率,例如机器人导航、自动驾驶等场景均需要精准的空间感知能力。商汤科技此次发布的成果,正是针对这一行业痛点展开的技术攻关。
开源的SenseNova-SI系列包含2B和8B两种参数规模的模型版本。根据官方披露的评测数据,在VSI、MMSI、MindCube、ViewSpatial等空间智能专项测试中,该系列模型均取得领先成绩。其中8B版本在四个核心基准测试中平均得分达60.99,较Qwen3-VL-8B(40.16)、BAGEL-7B(35.01)等开源模型提升显著,甚至超越了参数规模更大的GPT-5(49.68)和Gemini-2.5-Pro(48.81)。
具体案例对比显示,在立方体组合图形的俯视图识别任务中,SenseNova-SI-8B准确选择正确答案B,而GPT-5误选D;在空间方位判断场景中,面对"手持相机者视角下摩托车位置"的问题,SenseNova-SI-8B正确识别右侧方位,GPT-5则给出错误答案。更复杂的动态场景测试中,该模型在多车道车辆转向预测、视角变化下的移动方向判断等任务中,均展现出更高的准确率。
技术团队通过创新的空间表征学习框架,使模型能够高效解析几何关系、物体方位及动态轨迹等复杂空间信息。这种突破性进展不仅体现在静态场景理解,更延伸至动态环境预测领域。例如在自动驾驶场景测试中,SenseNova-SI-8B成功识别黄色车辆的右转意图,而GPT-5误判为静止状态。
该系列模型已通过GitHub平台全面开源,开发人员可访问指定地址获取完整代码与训练数据集。此举将为空间智能领域的研究提供重要基础设施,推动机器人导航、增强现实、智能驾驶等应用场景的技术革新。商汤科技表示,将持续优化模型性能,并探索与三维重建、物理仿真等技术的融合应用。











