京东近日在人工智能领域迈出重要一步,于Hugging Face平台正式开源了全新大模型JoyAI-LLM-Flash。该模型以30亿激活参数与480亿总参数的架构设计,在20万亿规模文本数据集上完成预训练,展现出在前沿知识理解、逻辑推理、代码生成及智能体交互等领域的显著优势。
技术架构方面,该模型创新性地引入纤维丛理论框架FiberPO,将数学领域的拓扑结构与强化学习算法深度融合。训练过程中采用的Muon优化器通过动态调整梯度更新策略,配合稠密多Token预测(MTP)机制,有效解决了传统大模型在参数规模扩展时面临的训练不稳定问题。实验数据显示,相比非MTP版本,模型吞吐量提升幅度达1.3至1.7倍。
在混合专家模型(MoE)设计上,研发团队构建了包含256个专家的路由系统,每个输入Token可动态激活8个专家模块进行并行处理。模型采用40层深度网络结构,其中包含1层标准Dense层与39层混合专家层,注意力机制采用MLA架构,隐藏维度分别设置为2048(标准注意力)与768(专家网络),配合32头多头注意力设计,在保证计算效率的同时提升了特征提取能力。
基础参数配置显示,该模型支持128K tokens的上下文窗口,词表规模达12.9万,采用SwiGLU激活函数增强非线性表达能力。共享专家机制与动态路由算法的结合,使得模型在保持30亿激活参数规模下,实际可调用的计算资源达到480亿参数量级,这种设计显著降低了推理阶段的显存占用,为边缘设备部署提供了可能。








