ITBear旗下自媒体矩阵:

阶跃星辰Step 3大模型开源:智能高效,多模态技术引领AI新潮流

   时间:2025-08-01 05:11:57 来源:IT之家编辑:快讯团队 IP:北京 发表评论无障碍通道
 

阶跃星辰公司近日正式推出了其新一代基础大模型Step 3,并宣布该模型已全面开源。同时,Step 3的API接口也已在阶跃星辰开放平台(platform.stepfun.com)上线,用户还可以通过访问“阶跃 AI”官方网站(stepfun.com)或下载“阶跃 AI”应用程序进行体验。

Step 3在设计上聚焦于智能与效率的双重提升,专为寻求性能与成本最佳平衡点的企业和开发者量身打造。这款模型旨在适应推理时代的需求,成为应用领域的理想选择。Step 3采用了混合专家(MoE)架构,总参数量高达3210亿,而激活参数量则为380亿。它具备出色的视觉感知能力和复杂的推理功能,能够准确处理跨领域的知识理解任务,完成数学与视觉信息的综合分析,以及日常生活中的各类视觉分析问题。

为了提升推理效率,Step 3在技术上进行了多项创新。它引入了MFA(多矩阵分解注意力)和AFD(注意力与前馈网络解耦)优化技术,使得模型在各种芯片上的推理速度大幅提升。同时,面向AFD场景的StepMesh通信库也随模型一同开源,提供了跨硬件的标准部署接口,确保了关键性能在实际服务中的稳定表现。

在模型性能方面,Step 3展现出了行业领先的水平。在MMMU、MathVision、SimpleVQA、AIME 2025、GPQA-Diamond、LiveCodeBench等多个评测集上的测试中,Step 3均取得了优异的成绩,在同类型开源模型中脱颖而出。

Step 3在多模态协同、系统解码成本与推理效率方面进行了重点突破。其预训练架构采用了自研的MFA注意力机制,有效降低了注意力计算中的KV缓存开销与算力消耗,实现了资源利用与推理效率的平衡。Step 3的多模态能力围绕“轻量视觉路径”与“稳定协同训练”展开,通过采用5B Vision Encoder和双层2D卷积对视觉特征进行降采样,大幅减少了视觉token的数量,从而减轻了上下文长度压力,提升了推理效率。

为了保证多模态训练的稳定性,Step 3的训练过程分为两个阶段进行。第一阶段强化Encoder的感知能力,第二阶段则冻结视觉编码器,仅优化主干与连接层,以减少梯度干扰。同时,训练语料的选择也与策略相匹配,确保了训练的稳定性与协同性。多模语料涵盖了Pair、Interleave与多任务数据,通过相似度过滤、重采样与任务比例控制等清洗环节,进一步提升了图文协同质量与训练鲁棒性。

在系统架构层面,Step 3重构了解码流程,解决了Attention与FFN混合执行带来的推理瓶颈以及资源不匹配问题。通过实现高性能的AFD方案,将两类计算任务解耦为两个子系统,并通过多级流水线并行调度,有效提升了整体吞吐效率。为满足解耦后子系统之间的高数据传输要求,阶跃星辰还研发了StepMesh通信库,基于GPU Direct RDMA实现跨卡的低延迟和高带宽传输,同时具备不占用GPU计算资源、适配多类异构硬件等优势。

目前,StepMesh库已随模型一同开源,并提供了可跨硬件的标准部署接口,支持关键性能在实际服务中的稳定复现。阶跃星辰表示,未来将继续与各开源社区合作推广,让以上技术更容易被采纳和使用。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version