ITBear旗下自媒体矩阵:

小红书开源多模态大模型dots.vlm1:解锁图文理解与数学解题新技能

   时间:2025-08-07 13:50:32 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近日,小红书的人文智能实验室(hi lab)正式向公众开源了其精心研发的多模态大模型dots.vlm1。这款模型建立在DeepSeek V3的基础上,并整合了由小红书团队自主研发的12亿参数视觉编码器NaViT,展现出了强大的多模态理解与推理能力。

据hi lab介绍,dots.vlm1在多个主要的视觉评测集上,表现已逼近业界领先的模型,例如Gemini 2.5 Pro和Seed-VL1.5 thinking。特别是在MMMU、MathVision、OCR Reasoning等基准测试中,dots.vlm1展现出了卓越的图文理解与推理实力。它能够解析复杂的图文交错图表,捕捉表情包背后的深层含义,对比两款产品的配料表差异,甚至识别博物馆内文物和画作的名称及其背景信息。

在典型的文本推理任务上,如AIME、GPQA、LiveCodeBench,dots.vlm1的性能与DeepSeek-R1-0528相当,显示了在数学和代码理解方面的通用性。然而,在面对GPQA等更加多样化的推理任务时,dots.vlm1仍存在一定的提升空间。

dots.vlm1的多模态理解能力得到了实际应用的验证。在一项测试中,dots.vlm1成功解读了一张包含复杂英文图表的截图,准确理解了图表元素间的关系,并准确回答了相关问题。dots.vlm1还能根据景区价目表和团队信息,为用户制定购票方案。在数学推理方面,dots.vlm1能识别几何图形及颜色信息,正确解答问题。更令人惊讶的是,dots.vlm1还能对emoji等视觉元素进行推理,如根据几个emoji猜测出它们代表的电影名称。

dots.vlm1的构建涉及三个核心组件:12亿参数的NaViT视觉编码器、轻量级MLP适配器,以及DeepSeek V3 MoE大语言模型。其训练过程分为三个阶段:首先,对NaViT视觉编码器进行预训练,旨在最大化其对多样视觉数据的感知能力;其次,将视觉编码器与DeepSeek V3联合训练,使用大规模、多样化的多模态数据集;最后,通过有监督微调,增强dots.vlm1模型的泛化能力。

在视觉编码器的预训练阶段,hi lab采用了双重监督策略,包括下一Token预测和下一Patch生成,并利用了大量图文对及纯图像数据进行训练。为了提升泛化能力,还引入了OCR场景图像、grounding数据和视频帧等更丰富的数据源。

在VLM预训练阶段,hi lab使用了跨模态互译数据和跨模态融合数据。跨模态互译数据用于训练模型将图像内容用文本描述、总结或重构,而跨模态融合数据则用于训练模型在图文混合上下文中执行下一token预测。为了确保数据质量,hi lab还开发了专门的清洗管线,对网页数据和PDF数据进行了特殊处理。

尽管dots.vlm1在多模态理解与推理方面取得了显著进展,但hi lab承认,该模型在视觉感知与推理能力上仍有提升空间。未来,hi lab计划扩大跨模态互译数据的规模与多样性,改进视觉编码器结构,并探索更有效的神经网络架构与损失函数设计。同时,hi lab还计划使用强化学习方法,缩小文本与多模态提示在推理能力上的差距。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version