AI语言模型领域迎来重要进展,开源社区迎来迄今最大规模的扩散语言模型——RND1-Base。这款由Radical Numerics团队研发的300亿参数模型,采用创新的稀疏专家混合架构,其中仅30亿参数处于活跃状态,既保证了模型性能又优化了计算效率。该模型完整开源了训练框架、推理代码及模型权重,为学术界和产业界提供了重要的研究基础。
与传统自回归模型逐字生成文本的方式不同,RND1-Base将语言生成过程类比为图像去噪,通过双向注意力机制实现整个文本序列的并行生成。这种技术路径突破了传统模型的顺序生成限制,在代码生成、数学推理等需要复杂逻辑的任务中表现出显著优势。测试数据显示,该模型在MMLU语言理解测试中取得57.2%的准确率,GSM8K数学推理达到72.1%,MBPP代码生成任务中达到51.3%,各项指标均领先同类开源模型。
研发团队通过创新的技术路线实现了模型的高效构建。基于Qwen3-30BA3B自回归模型,研究人员采用双向掩码机制和分层学习率调整,在保留原有知识的基础上完成向扩散架构的转型。训练过程中使用800万标记的大批量数据,经过5000亿标记的预训练,成功避免了从零开始训练的资源消耗。这种模型重用策略为大规模AI系统的开发提供了新的思路。
模型的稀疏激活设计是其核心创新之一。300亿总参数中仅10%处于活跃状态,这种架构既保持了模型的表达能力,又大幅降低了推理阶段的计算需求。虽然当前版本在贪婪采样时偶尔会出现重复生成现象,但研究团队已通过集成FlashInfer和SGLang推理后端,为后续优化提供了技术储备。
作为下一代AI实验室的代表作,RND1-Base承载着更宏大的愿景。研发团队由来自DeepMind、meta等顶尖机构的专家组成,他们致力于构建能够自我改进的AI系统。通过自动化研究平台,模型可以参与优化下一代AI架构,这种递归式的改进机制有望推动科学发现和工业应用的加速发展。
开源决策背后蕴含着深刻的战略考量。研究团队希望通过释放基础模型,激发全球研究者探索扩散架构在推理优化、后训练等方面的潜力。当前,扩散模型在长文本并行生成领域已展现出独特优势,此次开源或将推动更多自回归模型向扩散架构转型,填补高效生成模型的技术空白。
尽管在泛化能力和内存占用方面仍有改进空间,但RND1-Base的发布标志着扩散语言模型从理论探索向工程实践的关键跨越。其创新的技术路径和完整的开源体系,不仅为研究社区提供了重要工具,更为AI系统的自我进化开辟了新的可能性。随着更多研究者加入这一领域,扩散架构有望重塑下一代AI的技术格局。