商汤科技近日宣布开源其最新研发的多模态自主推理模型——SenseNova-MARS,该模型同时推出8B和32B两个版本,为人工智能领域带来了新的突破。作为首个支持动态视觉推理与图文搜索深度融合的Agentic VLM模型,SenseNova-MARS在多模态搜索与推理方面展现出卓越性能,在核心基准测试中以69.74分的成绩超越了Gemini-3-Pro和GPT-5.2等知名模型。
SenseNova-MARS的独特之处在于其自主规划与工具调用能力。面对复杂任务时,该模型能够自动规划解决步骤,调用图像裁剪、文本及图像搜索等工具,形成完整的解决方案闭环。例如,在识别赛车服上的微小logo、查询公司成立年份、匹配车手出生年月并计算差值的任务中,模型无需人工干预即可完成全流程操作。这种能力使AI系统首次具备了真正的"执行能力",能够处理需要多步骤推理和跨模态信息整合的复杂场景。
在性能验证方面,SenseNova-MARS在MMSearch、HR-MMSearch、FVQA等多个权威基准测试中均取得开源模型中的最佳成绩,甚至超越了Gemini-3.0-Pro等顶级闭源模型。该模型在细节识别、信息检索和逻辑推理三大核心能力上表现突出:其图像裁剪功能可精准定位占比不足5%的微小细节,如赛事照片中的观众标语或设备标识;图像搜索能实时匹配物体、人物或场景的相关信息;文本搜索则可秒级获取公司成立时间、行业数据等精准信息。
实际应用场景中,SenseNova-MARS已展现出强大潜力。在行业分析领域,该模型可从产品发布会照片中自动识别企业标志,快速搜集产品参数、时间节点等关键信息;在赛事报道方面,模型能通过照片识别运动员身份、追溯比赛背景,并补充观众反应等现场细节。更值得关注的是,该模型可处理超长步骤的多模态推理任务,自动调用多种工具验证假设并形成关键判断,为科研、金融等需要深度分析的领域提供了新的技术路径。











