ITBear旗下自媒体矩阵:

阶跃星辰Step3大模型开源:高性能低成本,赋能企业开发者

   时间:2025-08-01 09:57:34 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

阶跃星辰团队近期向公众揭开了其最新研发的基础大模型Step3的神秘面纱,并宣布该模型已在Github、Hugging Face及魔搭ModelScope三大平台上正式开源。Step3是针对性能与成本寻求最佳平衡点的企业和开发者量身打造的,旨在满足推理时代对应用模型的高要求。

Step3采用先进的MoE架构,总参数量高达3210亿,而激活参数量则控制在380亿。这款模型不仅视觉感知敏锐,推理能力卓越,还能跨越不同领域,精准理解复杂知识,进行数学与视觉信息的综合分析,解决日常生活中的各类视觉难题。通过引入MFA(多矩阵分解注意力)和AFD(注意力与前馈网络解耦)两项优化技术,Step3在各种芯片上的推理效率均实现了显著提升。

尤为Step3的核心设计中融入了自研的MFA注意力机制,这一创新有效减少了注意力计算中的KV缓存开销和算力消耗,实现了资源利用与推理效率的双重优化。这意味着,即便在配置为8张48GB显卡的环境下,Step3也能完成大吞吐量的推理任务,具备极高的实际应用价值。在多模态能力方面,Step3配备了5B视觉编码器,并通过双层2D卷积对视觉特征进行降采样,显著减少了视觉token的数量,从而提升了推理效率。

在训练过程中,Step3采用了分阶段策略:第一阶段强化编码器的感知能力,第二阶段则冻结视觉编码器,仅对主干与连接层进行优化,以减少梯度干扰。训练语料涵盖了Pair、Interleave及多任务数据,并通过相似度过滤、重采样和任务比例控制等清洗环节,进一步提升了图文协同质量和训练鲁棒性。在系统架构层面,Step3对解码流程进行了重构,解决了Attention与FFN混合执行带来的推理瓶颈和资源不匹配问题。为此,团队研发了高性能的AFD方案,将两类计算任务解耦为两个子系统,并通过多级流水线并行调度,大幅提升了整体吞吐效率。

为了满足解耦后子系统间的高数据传输需求,阶跃星辰团队还开发了面向AFD场景的StepMesh通信库。该通信库基于GPU Direct RDMA技术,实现了跨卡的低延迟、高带宽传输,同时不占用GPU计算资源,并适配多种异构硬件。在50ms解码的服务水平协议(SLA)前提下,Step3在Hopper GPU上的吞吐量达到了4039token/gpu/s,远超同类设置下的DeepSeek V3(2324token/gpu/s),特别是在特定硬件和长文场景下,性能增益更为显著,可达300%。

Step3在多个评测集上均表现出色,包括MMMU、MathVision、SimpleVQA、AIME2025、GPQA-Diamond及LiveCodeBench(2024.08-2025.05)等。在同类开源模型中,Step3的成绩名列前茅。例如,在处理“安排商务宴座”的任务时,Step3能准确识别图中结构,解析礼仪规则、角色关系与空间逻辑,并结合中文社交礼仪推理出完整的12人角色分布逻辑,最终输出角色明确、位置清晰、结构合理的全局排座方案,并通过表格和ASCII图直观展示。在卡路里计算任务中,Step3能准确识别复杂的小票信息,对菜品进行分类并匹配热量值,最终估算出两人一顿饭的总热量摄入为5710大卡,人均2855大卡,整个过程逻辑清晰,形成了一个完整的闭环。

目前,Step3API已在阶跃星辰开放平台(platform.stepfun.com)上线,开发者还可以在“阶跃 AI”官网(stepfun.com)和“阶跃 AI”App(应用商店搜索下载)进行体验。为庆祝开源,所有请求均按最低价格计费,每百万token的输入价格仅为1.5元,输出价格为4元。

GitHub开源地址:https://github.com/stepfun-ai/Step3

Hugging Face开源地址:https://huggingface.co/stepfun-ai/step3

魔搭ModelScope开源地址:https://www.modelscope.cn/models/stepfun-ai/step3 和 https://www.modelscope.cn/models/stepfun-ai/step3-fp8

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version