ITBear旗下自媒体矩阵:

AMD联手IBM与Zyphra发布ZAYA1:14T tokens预训练,架构创新性能对标Qwen3

   时间:2025-11-28 01:29:22 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

全球人工智能领域迎来一项重要突破——AMD联合IBM与AI初创企业Zyphra共同推出名为ZAYA1的混合专家(MoE)基础模型。该模型成为首个完全基于AMD硬件架构完成训练的同类产品,在数学、科学推理等核心能力上展现出与头部模型竞争的实力,标志着AMD在AI训练生态中的技术突破。

训练集群采用IBM Cloud部署的128个节点,每个节点配备8张AMD Instinct MI300X加速器,总计1024张GPU通过InfinityFabric互联技术构建。该集群依托ROCm软件栈实现高效协同,峰值算力达750PFLOPs。训练过程消耗14万亿tokens数据,采用渐进式课程学习策略,从通用网页数据逐步过渡到数学、代码及推理专项数据集。Zyphra团队表示,当前版本为预训练基础模型,后续将发布经过指令微调的增强版本。

模型架构包含两项关键创新:其一为卷积压缩注意力(CCA)机制,通过将卷积操作与注意力头压缩技术结合,在保持性能的同时降低32%显存占用,长序列处理吞吐量提升18%;其二为线性路由混合专家系统,通过细化专家粒度并引入负载均衡正则化,在Top-2路由策略下实现2.3个百分点的精度提升,即使在70%稀疏度条件下仍能维持90%以上的硬件利用率。

基准测试显示,ZAYA1-Base版本在MMLU-Redux、GSM-8K、MATH、ScienceQA等综合评估中与Qwen3-Base持平,在CMATH数学推理和OCW-Math专业测试中表现显著优于对比模型。值得注意的是,该模型未经指令微调即在STEM领域展现出接近专业版本的推理能力,验证了架构设计的有效性。Zyphra计划于2026年第一季度推出指令微调版本和强化学习对齐(RLHF)版本,届时将开放API接口及模型权重下载。

AMD方面透露,此次合作验证了MI300X加速器与ROCm软件栈在大规模MoE模型训练中的可行性。公司正与多家云服务提供商推进"纯AMD"训练集群的标准化部署,目标在2026年训练超千亿参数模型时,使总拥有成本(TCO)达到与NVIDIA方案相当的水平。这项进展为AI训练硬件生态的多元化发展提供了新的技术路径选择。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version