软件工程领域迎来重要进展,JetBrains 正式宣布开源其最新研发的 Mellum2 机器学习模型。这款专为软件工程系统设计的模型,在原版 Mellum 的基础上实现了全面升级,从单纯的代码补全工具进化为功能完备的编码助手。
在技术参数方面,Mellum2 的总规模达到 120 亿参数,较前代 40 亿参数有显著提升。该模型采用先进的稀疏混合专家框架,激活状态下仅需 25 亿参数即可运行,确保在标准硬件上仍能保持高效计算性能。上下文窗口容量从 8192 个标记扩展至 131072 个标记,大幅增强了模型处理长文本的能力。
功能特性上,新模型具备代码生成与编辑、外部工具调用、多步骤智能体工作流执行以及长对话维持等核心能力。开发者现在可以在 Apache 2.0 开放许可证下,选择部署基础版、指令版或思考版三种不同配置的模型版本。
JetBrains 将 Mellum2 的应用场景定位在四个关键领域:AI 工作负载的路由与编排、低延迟检索增强生成管线、复杂工作流中的快速子智能体调用,以及私有本地化 AI 部署方案。这些定位凸显了模型在提升开发效率、优化系统架构方面的独特价值。
训练方法论方面,研发团队采用创新的三阶段数据课程策略。预训练阶段的数据混合比例经过精心设计,从通用网页内容逐步过渡到精选代码和数学内容,这种渐进式训练方式使模型更贴合软件工程领域的专业需求。团队特别强调,数学内容的引入显著提升了模型的逻辑推理能力。












