近日,小红书的人文智能实验室(hi lab)向公众宣布了一个重要决定:将其最新研发的多模态大模型dots.vlm1进行开源。这款模型不仅植根于DeepSeek V3的坚实基础,还融入了小红书自主研发的12亿参数视觉编码器NaViT,从而在多模态理解与推理方面展现出卓越的能力。
hi lab透露,dots.vlm1在多个视觉评测集上的表现已经逼近行业内的领先模型,例如Gemini 2.5 Pro和Seed-VL1.5 thinking。特别是在MMMU、MathVision、OCR Reasoning等基准测试中,dots.vlm1的表现尤为亮眼。它能够轻松解读复杂的图文交错图表,洞察表情包背后的深层含义,分析产品配料表的细微差别,甚至能准确识别博物馆中文物和画作的名称及其背后的历史背景。
在文本推理任务方面,dots.vlm1的表现与DeepSeek-R1-0528不相上下,显示出其在数学和代码理解方面的通用性。尽管在GPQA等更为复杂的推理任务上仍有提升空间,但dots.vlm1的整体性能已经相当出色,尤其是在视觉多模态能力方面,已经接近甚至在某些场景下超越了当前的最佳性能(SOTA)水平。
dots.vlm1的成功得益于其精心设计的三个核心组件:一个拥有12亿参数的NaViT视觉编码器、一个轻量级的MLP适配器,以及强大的DeepSeek V3 MoE大语言模型。其训练过程历经三个阶段,从视觉编码器的预训练,到VLM(视觉语言模型)的预训练,再到VLM的后训练,每一步都经过了精心的设计和优化。
在视觉编码器预训练阶段,NaViT编码器通过海量的图文对和纯图像数据进行训练,从而大大增强了其对多样视觉数据的感知能力。在VLM预训练阶段,视觉编码器与DeepSeek V3携手共进,利用大规模、多样化的多模态数据集进行联合训练。而在VLM后训练阶段,则通过有监督微调进一步提升模型的泛化能力。
dots.vlm1已经成功上传至开源托管平台Hugging Face,用户可以在该平台上免费体验这一强大的模型。事实上,这并非小红书在开源领域的首次尝试。早在今年6月6日,小红书就已经开源了其首款大语言模型,并在之后陆续开源了OCR专用模型以及视觉、奖励模型等前沿研究成果。作为大模型领域的新晋力量,小红书的每一步都备受瞩目。
在实际应用中,dots.vlm1的多模态理解能力得到了充分的展现。它能够准确解读复杂的英文图表,理解图表元素之间的内在联系,并快速计算出用户所需的数据。dots.vlm1还能根据景区价目表和团队信息为用户制定购票方案,解析几何题中的图形和颜色信息并正确解题,甚至能对emoji等视觉信息进行深入的推理。
尽管dots.vlm1已经取得了显著的进展,但hi lab并未止步于此。他们坦言,该模型在视觉感知与推理能力上仍有待提升。为了进一步提升性能,hi lab计划从多个方面入手:扩大跨模态互译数据的规模与多样性,改进视觉编码器结构,探索更有效的神经网络架构和损失函数设计。同时,在视觉推理方面,hi lab还将考虑引入强化学习方法,以期缩小文本与多模态提示在推理能力上的差距。
hi lab还透露,他们正在积极寻求与行业内其他优秀团队的合作机会,共同推动多模态大模型技术的发展。他们相信,通过不断的努力和探索,dots.vlm1的性能将会得到进一步的提升,为用户带来更加智能、便捷的体验。