近日,国内社交内容平台小红书在人工智能领域迈出了重要一步,宣布开源其首个大型语言模型dots.llm1。这一举动不仅为开源社区增添了一名重量级的新成员,也彰显了小红书在技术创新上的雄厚实力。
dots.llm1是一个拥有1420亿参数的混合专家(MoE)模型,但在实际应用中,它仅需激活140亿参数,便能展现出与阿里Qwen3-32B模型相近的性能。这一特性使得dots.llm1在保持高效能的同时,也大大降低了运算成本。在中文任务上的表现尤为亮眼,dots.llm1在C-eval评测中取得了92.2分的高分,超越了包括DeepSeek-V3在内的众多模型。
技术报告显示,小红书团队在数据处理方面做出了多项创新。他们提出了一个可扩展且细粒度的三阶段数据处理框架,旨在提升数据的规模、质量和多样性。团队还开发了Web杂乱清除模型和类别平衡技术,进一步确保了数据的高质量和多样性。这些努力使得dots.llm1在预训练阶段就能接触到丰富且高质量的数据,从而提升了模型的性能。
在模型架构方面,dots.llm1采用了仅限解码器的Transformer架构,其中每一层包含一个注意力层和一个前馈网络(FFN)。与传统的密集模型不同,dots.llm1的FFN被专家混合(MoE)层所替代。这种架构使得dots.llm1能够在保持经济成本的同时,训练出功能强大的模型。在注意力层方面,dots.llm1使用了普通的多头注意力机制,而在MoE层则遵循了DeepSeek和Qwen的做法,用包含共享和独立专家的MoE层替换了FFN。
为了全面评估dots.llm1的性能,小红书团队在中文和英文上进行了预训练,并评估了它在多个领域基准测试中的表现。结果显示,dots.llm1在大多数领域中表现出了与Qwen2.5-72B相当的性能。特别是在语言理解任务上,dots.llm1在中文理解基准测试中取得了较高性能,这主要得益于其高效的数据处理管道。在知识任务、代码和数学领域,dots.llm1也展现出了稳健的表现。
dots.llm1在预训练完成后还经过了监督微调阶段。小红书团队基于开源数据和内部注释数据收集了大约400k个指令调优实例,并对dots.llm1进行了两个阶段的微调。这些努力进一步提升了dots.llm1在特定领域(如数学和编码)的能力。
通过此次开源,小红书不仅为人工智能领域贡献了一个强大的大型语言模型,也展示了其在数据处理和模型架构方面的创新实力。dots.llm1的成功推出,无疑将推动大型语言模型的发展和应用,为人工智能技术的进步注入新的活力。