ITBear旗下自媒体矩阵:

小红书开源多模态大模型dots.vlm1:解锁图文理解与数学解题新能力

   时间:2025-08-07 14:39:51 来源:智东西编辑:快讯团队 IP:北京 发表评论无障碍通道
 

小红书的人文智能实验室(hi lab)近日宣布开源了其最新的多模态大模型dots.vlm1。这款模型建立在DeepSeek V3的基础上,并配备了小红书自研的12亿参数视觉编码器NaViT,展现出强大的多模态理解与推理能力。

据hi lab介绍,dots.vlm1在多个视觉评测集上的表现已经接近当前领先的模型,如Gemini 2.5 Pro和Seed-VL1.5 thinking。特别是在MMMU、MathVision、OCR Reasoning等基准测试中,dots.vlm1显示出卓越的图文理解与推理能力。它能理解复杂的图文交错图表,解析表情包背后的含义,分析产品配料表差异,并能准确判断博物馆中文物和画作的名称及背景信息。

在文本推理任务上,dots.vlm1的表现大致与DeepSeek-R1-0528相当,显示出一定的数学和代码能力通用性。然而,在GPQA等更多样化的推理任务上,dots.vlm1仍存在提升空间。尽管如此,dots.vlm1的整体性能已经相当可观,特别是在视觉多模态能力方面,已接近最佳性能(SOTA)水平。

dots.vlm1由三个核心组件构成:一个12亿参数的NaViT视觉编码器、一个轻量级的MLP适配器,以及DeepSeek V3 MoE大语言模型。其训练过程经历了三个阶段,包括视觉编码器预训练、VLM预训练和VLM后训练。在视觉编码器预训练阶段,NaViT编码器通过大量图文对和纯图像数据进行训练,以增强对多样视觉数据的感知能力。在VLM预训练阶段,视觉编码器与DeepSeek V3联合训练,使用大规模、多样化的多模态数据集。最后,在VLM后训练阶段,通过有监督微调增强模型的泛化能力。

值得注意的是,dots.vlm1已经上传至开源托管平台Hugging Face,用户可以在该平台上免费体验这一模型。小红书在今年6月6日已经开源了其首款大语言模型,并在之后陆续开源了OCR专用模型以及视觉、奖励模型等前沿方向的研究成果。作为大模型界的新玩家,小红书的后续动作值得持续关注。

在实际应用中,dots.vlm1展现了其强大的多模态理解能力。例如,它能够准确解读复杂的英文图表,理解图表元素之间的关系,并计算出用户所需的数据。dots.vlm1还能根据景区价目表和团队信息为用户规划购票方案,理解几何题中的图形和颜色信息并正确解题,甚至能对emoji等视觉信息进行推理。

尽管dots.vlm1在多模态理解与推理方面取得了显著进展,但hi lab也表示,该模型在视觉感知与推理能力上仍存在不足。为了进一步提升性能,hi lab计划扩大跨模态互译数据的规模与多样性,改进视觉编码器结构,并探索更有效的神经网络架构和损失函数设计。同时,在视觉推理方面,hi lab将考虑使用强化学习方法,以缩小文本与多模态提示在推理能力上的差距。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version