在深夜时分,字节跳动旗下的Seed团队悄然发布了一系列开源模型,命名为Seed-OSS,这一系列共有三个版本,分别是Seed-OSS-36B-Base(含合成数据)、Seed-OSS-36B-Base(不含合成数据)以及Seed-OSS-36B-Instruct(指令微调版)。
这些模型已在Hugging Face和GitHub上公开,地址分别为此处和此处。Seed-OSS系列模型使用了惊人的12万亿(12T)tokens进行训练,并在多个主流开源基准测试中表现突出。
值得注意的是,这三个模型均采用了Apache-2.0许可证,这意味着研究人员和企业开发者可以自由地使用、修改和再分发这些模型,这无疑为AI领域注入了新的活力。
Seed-OSS-36B的架构融合了多种前沿技术,包括因果语言建模、分组查询注意力、SwiGLU激活函数等。每个模型拥有360亿参数,分布在64层网络中,支持15.5万词表。其中,原生长上下文能力尤为引人注目,最大上下文长度可达512k tokens,相当于约1600页文本,这一特性使得Seed-OSS能够处理超长文档和复杂的推理链。
除了强大的架构外,Seed-OSS还引入了推理预算的概念,允许开发者在模型给出答案前指定推理过程的长度。这一设计使得团队可以根据任务的复杂性和部署需求来调节性能,更加灵活高效。在实际应用中,模型会在推理过程中提醒用户token的使用情况,帮助用户更好地控制资源。
在基准测试中,Seed-OSS-36B系列模型展现出了卓越的性能。含合成数据版本的Base模型在MMLU-Pro上取得65.1分,在MATH上取得81.7分;而Instruct版本更是在多个领域刷新了SOTA纪录,包括在数学与推理任务AIME24上取得91.7%的成绩,以及在代码能力测试LiveCodeBench v6上得分67.4。
推理预算的灵活性也在不同任务中得到了体现。对于简单任务,随着推理预算的增加,分数波动较小;而在复杂任务中,分数则随着推理预算的增加而显著提升。这一特性使得Seed-OSS能够更好地适应各种应用场景,满足多样化的需求。