360集团近期宣布了一项重大进展,其自主研发的7B参数模型360Zhinao3-7B已完成了全面升级,并在Github开源社区上公开发布,且允许免费商业使用。这款模型不仅在科学计算与数学领域有着卓越表现,更在通用性能上展现出了非凡的潜力,特别是在端侧应用场景中尤为突出。
360Zhinao3-7B模型的升级策略尤为高效,仅通过增量训练700B的高质量token便实现了显著的性能提升。与前代产品360Zhinao2-7B相比,这一升级大大减少了成本,训练token量从10.1T降至700B,同时保持了推理成本不变,实现了成本效益的最大化。
在数据筛选流程中,360智脑团队实施了更为严格的筛选标准,利用多种离线数据筛选模型对数据进行细致分类和评分,显著提升了训练数据的质量。团队还优化了数据配比,增加了数学、代码和指令相关数据的比例,同时降低了网页和书籍数据的占比,从而强化了模型的指令理解和推理能力。
360Zhinao3-7B模型在预训练阶段也进行了重要改进,新增了长文本预训练环节,将最大窗口长度从4k扩展至32k,并对ROPE的base值进行了调整,从1w提升至100w。通过增加超长文本和长代码的比例,模型的长文本处理能力得到了进一步优化。
在评估模型效果时,360智脑团队采用了开源工具opencompass进行多维度测试。测试结果显示,360Zhinao3-7B模型在同类10B尺寸模型中具有强劲竞争力。在微调阶段,团队运用了蒸馏、强化学习等多种策略,进一步提升了模型的性能。特别是在长思维链训练中,360Zhinao3-7B模型经过四阶段训练,在数学和科学数据上的表现与从零开始训练的7B推理模型相当,同时在通用多轮对话、角色扮演以及复杂指令遵循等场景中也展现出了卓越的能力。
360智脑团队表示,360Zhinao3-7B模型的开源旨在推动AI技术的普及和发展,为开发者提供更为强大的工具支持。该模型不仅在科学计算与数学领域具有广泛应用前景,更在端侧应用中展现出巨大的潜力,为AI技术的实际应用提供了更多可能性。
开发者可以在Github平台上访问360Zhinao3-7B模型的开源代码,地址为:https://github.com/Qihoo360/360zhinao3。