商汤科技近日宣布,正式开源两款多模态自主推理模型——SenseNova-MARS-8B与SenseNova-MARS-32B。这两款模型在多模态搜索与推理的核心基准测试中表现突出,性能超越了Gemini 3 Pro、GPT-5.2等知名专有模型,标志着多模态AI领域的技术突破。
SenseNova-MARS系列模型的核心优势在于其动态视觉推理与图文搜索深度融合的能力。作为首个支持此类功能的Agentic VLM(视觉语言模型),它能够在多轮推理过程中主动调用图像搜索、文本搜索及图像裁剪工具。例如,当需要分析图片细节时,模型可通过放大或裁剪图像定位关键信息,再结合外部知识库完成背景查询,整个过程无需人工干预。这一特性使其在处理复杂任务时展现出接近人类思维的连贯性。
在基准测试中,SenseNova-MARS的表现令人瞩目。在MMSearch、HR-MMSearch、FVQA等搜索导向型测试中,32B版本分别取得74.3和54.4的得分,超越Gemini-3-Pro与GPT-5.2;在知识密集型任务中,其依赖外部搜索工具的比例高达90%,仅10%依赖局部感知,体现了对全局信息的精准把握。而在高分辨率感知测试如V Bench中,32B版本同样优于Qwen3-VL-235B-A22B等模型,证明其在视觉理解与推理能力上的均衡性。
技术实现层面,SenseNova-MARS采用双阶段流水线并行训练策略。第一阶段通过系统框架训练(SFT)构建基础能力:针对跨模态数据稀缺问题,研发团队设计自动化数据合成引擎,利用细粒度视觉锚点与多跳检索机制,动态生成高复杂度推理链路,并通过闭环校验剔除低质量数据。第二阶段引入强化学习(RL),模型在决策正确时获得奖励,错误时调整策略,配合BN-GSPO算法避免“偏科”,确保在简单与复杂任务中均能稳定进步。这种训练方式使模型不仅学会使用工具,更能根据场景灵活组合工具结果。
实际应用中,SenseNova-MARS的闭环解题能力可显著提升产业效率。例如,在工业质检场景,模型能通过裁剪图像定位产品缺陷,结合搜索工具追溯生产批次信息;在金融风控领域,它可分析合同文本与关联图表,自动验证数据一致性;在科研辅助中,模型能从论文配图中提取实验参数,跨数据库检索相关研究,加速假设验证。这些场景此前因AI缺乏多步骤推理与工具协作能力而难以落地,而SenseNova-MARS的开源为行业提供了可定制的解决方案。
目前,商汤已将SenseNova-MARS的模型、代码及数据集全量开源,开发者可通过GitHub获取资源。这一举措不仅推动了多模态AI技术的普及,也为跨领域应用创新提供了基础框架。随着模型在真实场景中的持续优化,其潜力有望进一步释放,助力更多行业实现智能化转型。












