ITBear旗下自媒体矩阵:

字节Seed团队开源推理大模型,Seed-OSS系列在7项基准测试中夺冠

   时间:2025-08-21 19:48:44 来源:智东西编辑:快讯团队 IP:北京 发表评论无障碍通道
 

字节跳动旗下的Seed团队近日宣布了一项重大开源举措,正式推出了Seed-OSS系列模型。这一系列模型专为处理长上下文、推理任务、Agent行为及通用场景设计,其上下文窗口扩展至前所未有的512k,这一数字是业界常规上下文窗口(128k)的四倍,甚至超越了GPT-5的两倍,相当于能够一次性处理约1600页文本的内容。

Seed-OSS系列模型特别针对推理任务进行了优化,并赋予用户调节思维预算的灵活性,以满足不同应用场景的需求。此次开源包含了三个版本:基础模型Seed-OSS-36B-Base、无合成数据基础模型Seed-OSS-36B-Base-woSyn,以及经过指令微调的Seed-OSS-36B-Instruct。

在多个基准测试中,经过指令微调的Seed-OSS-36B-Instruct展现了出色的性能,在通用知识、Agent行为、编程及长上下文等领域取得了7项开源模型中的最佳表现(SOTA)。其整体能力超越了Qwen3-32B、Gemma3-27B及gpt-oss-20B等模型,与Qwen3-30B-A3B-Thinking-2507在多数领域不相伯仲。

Seed-OSS系列模型遵循宽松的Apache2.0开源协议,并计划在未来发布详细的技术报告。这些模型采用了12万亿个token的预训练数据,基于当前主流的因果语言模型架构,即预测下一个token的模型类型,且全部为稠密模型,未采用MoE等复杂架构。

在技术创新方面,Seed-OSS系列结合了多项关键技术,包括RoPE(旋转位置编码)、GQA注意力机制、RMSNorm归一化及SwiGLU激活函数等,这些组件的组合旨在提升训练稳定性和推理性能。尤为Seed-OSS的512k上下文窗口并非后续扩展,而是原生训练的结果。

模型还引入了思考预算功能,帮助开发者控制推理成本并优化使用体验。根据Seed团队的分享,对于简单任务,随着思维预算的增加,模型分数波动不大;而对于复杂任务,分数则会随着思维预算的增加而提升。在默认模式下,模型没有思考长度限制,但若指定思维预算,建议优先考虑512的整数倍值。

Seed-OSS系列模型一经发布,便获得了开发者社区的广泛认可。Hugging Face的工程师Tiezhen Wang评价称,这一系列模型非常适合进行消融研究,能够以较低成本探索不同组件对大模型性能的影响。社区成员也纷纷表示,如此规模的基础模型在开源界较为罕见,且长上下文能力对实际应用具有重要意义。

近期,字节跳动Seed团队频繁开源多款模型,除了Seed-OSS系列外,还包括多语言翻译模型Seed-X、智能体模型Tar系列及图像编辑模型Vincie等。这一系列举措表明,开源正逐渐成为模型发布的重要选择,甚至像OpenAI这样原本坚持闭源的厂商也开始逐步开源其模型。字节跳动此次将核心语言模型贡献给社区,无疑为开源研究提供了更多基础模型的选择。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version