ITBear旗下自媒体矩阵:

商汤科技SenseNova-MARS模型开源:多模态推理赋能AI“执行能力”升级

   时间:2026-01-30 13:39:19 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

商汤科技近日正式对外宣布,其自主研发的多模态自主推理模型SenseNova-MARS已实现开源,并同步推出8B与32B两种参数规模的版本供开发者使用。这一模型在多模态搜索与推理领域的基准测试中表现优异,以69.74的综合得分超越了Gemini-3-Pro、GPT-5.2等国际主流模型,引发行业广泛关注。

作为一款被定义为Agentic VLM(视觉语言模型)的创新产品,SenseNova-MARS的核心突破在于赋予AI系统动态规划能力与工具调用权限。通过支持多步骤推理流程,该模型能够自主分解复杂任务并调用图像处理、文本搜索等工具链,使AI从单纯的"理解者"转变为具备执行能力的"行动者"。例如,在处理赛车服logo识别任务时,模型可自动调用图像裁剪工具定位目标区域,再通过多模态搜索关联企业信息,最终完成从视觉识别到知识推理的完整闭环。

技术实现层面,研究团队采用自动化数据合成技术构建复杂推理场景,结合强化学习算法对模型决策路径进行持续优化。这种训练范式使模型在处理微小标志识别、跨模态信息关联等任务时展现出显著优势。相关技术细节已通过学术论文形式公开,开发者可通过开源社区获取模型权重及训练代码,进行二次开发或性能测试。

目前,SenseNova-MARS已展现出广泛的应用潜力。在工业质检领域,模型可精准识别产品表面的微米级缺陷;在金融风控场景中,能够通过分析票据图像与文本信息交叉验证交易真实性;在医疗辅助诊断方面,则可结合影像资料与病历文本进行综合推理。随着开源生态的完善,该模型有望推动多模态AI技术向更复杂的垂直领域渗透。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version