ITBear旗下自媒体矩阵:

小红书最新开源多模态大模型dots.vlm1,性能卓越

   时间:2025-08-08 03:05:36 来源:新智元编辑:快讯团队 IP:北京 发表评论无障碍通道
 

小红书,这家以“种草”文化闻名的社交平台,近期在AI技术自研方面迈出了坚实步伐。两个月内,小红书连续开源了三款模型,其中最新开源的dots.vlm1多模态大模型尤为引人注目。这款模型基于小红书自研的视觉编码器构建,展现出了强大的视觉理解和推理能力,实测中甚至能“看穿色盲图”、破解数独、解答高考数学题,甚至能模仿李白诗风创作。

在当前的AI圈,竞争异常激烈,各大科技巨头纷纷推出自家的开源模型。OpenAI的Claude从Opus 4升级到4.1,谷歌的Genie 3也引发了社区的广泛讨论。而在国产模型方面,HuggingFace上的前十个开源模型中,大部分都是来自国内的作品,显示出国产AI模型的强劲势头。

然而,在这些排名靠前的开源模型中,一个显著的现象是,大多数模型都是文本模型,缺乏多模态能力。相比之下,小红书人文智能实验室(Humane Intelligence Lab,简称hi lab)开源的dots.vlm1,则以其独特的多模态能力脱颖而出。

dots.vlm1是小红书hi lab研发并开源的首个多模态大模型,它基于12亿参数的NaViT视觉编码器和DeepSeek V3大语言模型构建。在视觉评测集如MMMU、MathVision、OCR Reasoning上,dots.vlm1的表现已接近当前领先的Gemini 2.5 Pro与Seed-VL1.5 Thinking模型,显示出强大的图文理解与推理能力。

实测中,dots.vlm1展现了令人惊艳的表现。在空间理解任务中,即使面对复杂的图表,dots.vlm1也能准确提取信息并进行分析。在数独问题上,dots.vlm1更是展现了其强大的推理能力,通过逐步试算和检查,成功解出了数独问题。dots.vlm1还能解答高考数学题,其答案格式整齐,逻辑清晰。

除了视觉和推理能力,dots.vlm1在文本生成方面也表现出色。当被要求模仿李白的诗词风格写一首诗时,dots.vlm1不仅准确把握了问题的精髓,还创作出了一首充满诗意的作品。这进一步证明了dots.vlm1在理解和生成文本方面的强大能力。

小红书之所以选择自研多模态大模型,是因为多模态AI正成为通向通用人工智能(AGI)的必经之路。通过模拟人类利用多种感官综合感知世界的方式,多模态AI能够形成更全面、细致的理解。在自动驾驶、具身智能等领域,多模态AI正发挥着越来越重要的作用。

小红书hi lab在AI技术自研方面的决心不仅体现在dots.vlm1上。此前,他们还开源了dots.llm1和dots.ocr等模型,显示了其在AI技术自研方面的持续投入和创新能力。未来,随着dots模型家族的不断壮大,小红书有望在AI领域取得更多突破。

值得注意的是,小红书在AI技术自研方面的努力并不仅仅是为了追求技术领先。他们更希望通过这些技术来更好地理解用户和内容,从而提供更精准的个性化推荐和更自然的人机交互体验。这不仅有助于提升小红书的用户体验,也有助于推动AI技术在社交领域的创新应用。

随着dots.vlm1等模型的开源和应用,小红书在AI技术自研方面的努力正逐渐开花结果。未来,我们有理由相信,小红书将在AI领域取得更多令人瞩目的成就。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version