小红书最新开源多模态大模型dots.vlm1，性能卓越

时间：2025-08-08 03:05:36 来源：新智元编辑：快讯团队 IP：北京 发表评论无障碍通道

小红书，这家以“种草”文化闻名的社交平台，近期在AI技术自研方面迈出了坚实步伐。两个月内，小红书连续开源了三款模型，其中最新开源的dots.vlm1多模态大模型尤为引人注目。这款模型基于小红书自研的视觉编码器构建，展现出了强大的视觉理解和推理能力，实测中甚至能“看穿色盲图”、破解数独、解答高考数学题，甚至能模仿李白诗风创作。

在当前的AI圈，竞争异常激烈，各大科技巨头纷纷推出自家的开源模型。OpenAI的Claude从Opus 4升级到4.1，谷歌的Genie 3也引发了社区的广泛讨论。而在国产模型方面，HuggingFace上的前十个开源模型中，大部分都是来自国内的作品，显示出国产AI模型的强劲势头。

然而，在这些排名靠前的开源模型中，一个显著的现象是，大多数模型都是文本模型，缺乏多模态能力。相比之下，小红书人文智能实验室（Humane Intelligence Lab，简称hi lab）开源的dots.vlm1，则以其独特的多模态能力脱颖而出。

dots.vlm1是小红书hi lab研发并开源的首个多模态大模型，它基于12亿参数的NaViT视觉编码器和DeepSeek V3大语言模型构建。在视觉评测集如MMMU、MathVision、OCR Reasoning上，dots.vlm1的表现已接近当前领先的Gemini 2.5 Pro与Seed-VL1.5 Thinking模型，显示出强大的图文理解与推理能力。

实测中，dots.vlm1展现了令人惊艳的表现。在空间理解任务中，即使面对复杂的图表，dots.vlm1也能准确提取信息并进行分析。在数独问题上，dots.vlm1更是展现了其强大的推理能力，通过逐步试算和检查，成功解出了数独问题。dots.vlm1还能解答高考数学题，其答案格式整齐，逻辑清晰。

除了视觉和推理能力，dots.vlm1在文本生成方面也表现出色。当被要求模仿李白的诗词风格写一首诗时，dots.vlm1不仅准确把握了问题的精髓，还创作出了一首充满诗意的作品。这进一步证明了dots.vlm1在理解和生成文本方面的强大能力。

小红书之所以选择自研多模态大模型，是因为多模态AI正成为通向通用人工智能（AGI）的必经之路。通过模拟人类利用多种感官综合感知世界的方式，多模态AI能够形成更全面、细致的理解。在自动驾驶、具身智能等领域，多模态AI正发挥着越来越重要的作用。

小红书hi lab在AI技术自研方面的决心不仅体现在dots.vlm1上。此前，他们还开源了dots.llm1和dots.ocr等模型，显示了其在AI技术自研方面的持续投入和创新能力。未来，随着dots模型家族的不断壮大，小红书有望在AI领域取得更多突破。

值得注意的是，小红书在AI技术自研方面的努力并不仅仅是为了追求技术领先。他们更希望通过这些技术来更好地理解用户和内容，从而提供更精准的个性化推荐和更自然的人机交互体验。这不仅有助于提升小红书的用户体验，也有助于推动AI技术在社交领域的创新应用。

随着dots.vlm1等模型的开源和应用，小红书在AI技术自研方面的努力正逐渐开花结果。未来，我们有理由相信，小红书将在AI领域取得更多令人瞩目的成就。

360集团高级副总裁、数智化集团CEO殷宇辉表示，为突破政企场景中智能体落地的技术瓶颈与应用难题，360创新推出全球首个L4级别的企业智能体工厂-SEAF，以“能用、好用、放心用”为核心，通过模块化智能体生…

2024年re:Invent大会上，Andy Jassy提出“Choice Matters”战略，其逻辑背景是，没有一款大模型能“包打一切”、适应全部场景，如今这一前瞻性布局已形成包含上百款商业及开源模型的庞…

作为数据流转的 “中转站”，能从各业务系统（如CRM、ERP、订单系统等）中抽取结构化数据，按飞书多维表格的字段规则进行格式转换与清洗，再通过实时或定时同步的方式，将数据推送至指定表格。 …

当然如果是我们要添加这种，比如说这种类似一种分类的这种形式，也可以直接添加这种魔方的导航，这种需要自由的排版，这边话会有对应的一些样式，比如说看我们魔方导航的一个数量，比如说我们可以选择这种三个的这种或者是四…

微信小程序的基础运营成本包括认证、服务器和域名费用。这部分费用是微信小程序多少钱开发一个的基础答案，无论开发方式如何都需支出。对于初创企业，推荐首选呱呱赞模板平台去开发，每年 2000-6000 左右 …

该负责人表示，近期抖音直播升级团播管理规范，从团播内容、主播行为及公会运营角度，对主播和机构提出了更严格要求；而此次直播机构发起联合倡议，则是行业主体内部发力，将平台的治理规则内化为机构的自觉行动准则，体现了…

开发者报名参与本计划后，需在2025年7月23日至2025年12月31日期间，完成鸿蒙应用、游戏和元服务开发并在华为应用市场正式上架，满足相应的激励条件即可获得激励。此激励计划展现了华为加速生态建设的坚定承诺…

这款新推出的AI模型名为ProjectIre，能够逆向工程可疑软件文件，并使用反编译器和二进制分析等取证工具来解构代码，从而确定文件是恶意还是安全的。"对于它分析的每个文件，Project Ire都会生…

日前据媒体报道，有知情人士称，百度最快将在8月底推出文心大模型最新版推理模型，目前该模型正在全力测试中。在逻辑推理、复杂计算等能力上，文心新版推理模型将超越OpenAI o3满血版。作为中国首家推出类…

天眼查工商信息显示，近日，时代骐骥新能源科技（北京）有限公司成立，法定代表人为张永鑫，注册资本2000万人民币，经营范围包括新兴能源技术研发、新能源汽车换电设施销售、在线能源计量技术研发等。股东信息显示，该公…

上半年与新能源乘用车市场份额堪堪持平，6月，传统燃料乘用车销量实现同、环比双增，国内销量98万辆，环比增长14.7%，同比增长9.7%。“需要注意的是，合资品牌整体市占率的下滑与一些边缘品牌退出市场或竞争力丧…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.