ITBear旗下自媒体矩阵:

国产算力新突破:摩尔线程“花港”架构领航,中科曙光万卡集群亮相

   时间:2025-12-20 16:45:48 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

国产算力领域近期迎来重要突破,两家企业分别从芯片架构与系统集成角度推出创新成果,标志着行业竞争焦点从单卡性能转向大规模集群协同能力。这一转变源于大模型训练对算力需求的指数级增长——当参数量突破万亿级后,单一芯片的物理性能已触及天花板,如何让上万张计算卡高效协作成为关键挑战。

摩尔线程在开发者大会上发布的“花港”全功能GPU架构,通过计算密度提升与低精度计算支持实现技术跃迁。据披露,新架构算力密度较前代提升50%,能效比提高10倍,并支持从FP4到FP64的全精度计算范围。基于该架构规划的“华山”芯片定位AI训推一体场景,专为万卡级集群设计;“庐山”芯片则聚焦图形渲染领域,AI计算性能提升64倍,光线追踪效率增长50%。这种“双线并进”策略延续了其全功能GPU路线,试图在图形与计算市场同步建立优势。

系统层面的创新同样引人注目。中科曙光推出的scaleX万卡超集群系统首次实现国产万卡级算力集群的实物展示,该系统由16个超节点通过高速网络互连,可部署超万张AI加速卡。针对高密度部署的散热难题,系统采用浸没相变液冷技术,使单机柜算力密度提升20倍,PUE值降至1.04。这一突破意味着在相同空间与电力条件下,数据中心可容纳更多算力,直接降低运营成本。

通信延迟成为制约集群性能的另一瓶颈。当GPU数量突破万级时,节点间数据传输效率直接影响整体运算速度。摩尔线程通过新一代异步编程模型与自研MTLink互联技术,宣称支持十万卡规模扩展;中科曙光则发布scaleFabric网络架构,依托400Gb/s带宽与亚微秒级延迟的原生RDMA网卡,构建起低延迟通信网络。两家企业的技术路径虽不同,但均瞄准解决“通信墙”这一行业痛点。

推理场景的需求爆发推动硬件适配性升级。随着DeepSeek等6710亿参数大模型落地,硬件厂商需证明其产品能支撑复杂推理任务。测试数据显示,摩尔线程MTT S5000单卡在预填充环节吞吐量突破4000 tokens/s,解码吞吐量超1000 tokens/s,表明国产GPU已具备处理千亿参数模型的全流程能力。这种突破不仅验证了硬件性能,更为大模型商业化应用扫清障碍。

软件生态的完善程度正成为竞争新维度。摩尔线程将MUSA统一架构升级至5.0版本,核心计算库muDNN在矩阵乘法与注意力机制等关键算法上的效率超过98%,显示出在CUDA生态垄断下的突围努力。中科曙光则采取开放策略,其系统支持多品牌加速卡,已完成400余个大模型的适配优化,通过构建兼容性底座降低客户迁移成本。这种差异化竞争路径,反映出国产算力产业在生态建设上的多元探索。

从芯片架构革新到系统集成突破,从训练效率提升到推理性能验证,国产算力产业正通过技术迭代与生态构建双轮驱动,逐步缩小与国际领先水平的差距。在万亿参数大模型时代,这场围绕“规模与效率”的竞赛,或将重新定义全球算力格局。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version