ITBear旗下自媒体矩阵:

字节开源Seed-OSS-36B大模型,最大支持512k上下文处理

   时间:2025-08-22 00:09:41 来源:机器之心Pro编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在深夜时分,字节跳动旗下的Seed团队悄然发布了一系列开源模型,命名为Seed-OSS,这一系列共有三个版本,分别是Seed-OSS-36B-Base(含合成数据)、Seed-OSS-36B-Base(不含合成数据)以及Seed-OSS-36B-Instruct(指令微调版)。

这些模型已在Hugging Face和GitHub上公开,地址分别为此处和此处。Seed-OSS系列模型使用了惊人的12万亿(12T)tokens进行训练,并在多个主流开源基准测试中表现突出。

值得注意的是,这三个模型均采用了Apache-2.0许可证,这意味着研究人员和企业开发者可以自由地使用、修改和再分发这些模型,这无疑为AI领域注入了新的活力。

Seed-OSS-36B的架构融合了多种前沿技术,包括因果语言建模、分组查询注意力、SwiGLU激活函数等。每个模型拥有360亿参数,分布在64层网络中,支持15.5万词表。其中,原生长上下文能力尤为引人注目,最大上下文长度可达512k tokens,相当于约1600页文本,这一特性使得Seed-OSS能够处理超长文档和复杂的推理链。

除了强大的架构外,Seed-OSS还引入了推理预算的概念,允许开发者在模型给出答案前指定推理过程的长度。这一设计使得团队可以根据任务的复杂性和部署需求来调节性能,更加灵活高效。在实际应用中,模型会在推理过程中提醒用户token的使用情况,帮助用户更好地控制资源。

在基准测试中,Seed-OSS-36B系列模型展现出了卓越的性能。含合成数据版本的Base模型在MMLU-Pro上取得65.1分,在MATH上取得81.7分;而Instruct版本更是在多个领域刷新了SOTA纪录,包括在数学与推理任务AIME24上取得91.7%的成绩,以及在代码能力测试LiveCodeBench v6上得分67.4。

推理预算的灵活性也在不同任务中得到了体现。对于简单任务,随着推理预算的增加,分数波动较小;而在复杂任务中,分数则随着推理预算的增加而显著提升。这一特性使得Seed-OSS能够更好地适应各种应用场景,满足多样化的需求。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version