商汤科技与华为近日宣布,其联合研发的商汤大装置SenseCore已与华为昇腾384超节点完成深度适配,在功能与性能验证中达到预期目标。此次合作标志着国产AI算力基础设施在跨平台协同与效率优化方面取得重要突破。
昇腾384超节点(Atlas 900 A3 SuperPoD)是华为推出的全球最大规模超节点方案,其核心创新在于“全对等架构”。该架构突破传统服务器总线限制,将高速互联总线扩展至整机柜及跨机柜层级,实现CPU、NPU、DPU、存储及内存资源的全域互联与池化,构建出单台“超级计算机”。这种设计显著提升了算力密度与互联带宽,为AI大模型训练提供了更高效的底层支持。
商汤大装置SenseCore针对超节点特性进行了多项技术优化。在调度层面,平台不仅支持单机、多机及跨超节点(POD)的灵活调度,还通过模型并行策略实现逻辑超节点的自动划分。这一创新使EP/TP等大通信策略能够充分利用灵衢网络,大幅缩短模型训练周期。例如,在跨POD训练场景中,SenseCore团队通过修复多POD环境下master/work任务rank乱序问题,从根本上解决了训练任务概率性失败的技术瓶颈。
在系统可靠性方面,SenseCore构建了多维度故障检测与恢复体系。该体系覆盖服务器硬件、高速互联总线、RoCE网络及任务进程等软硬件层级,结合Job/Pod/进程三级恢复机制,显著提升了昇腾384超节点在长周期训练任务中的稳定性。据技术文档显示,这一优化使超节点在复杂训练场景下的容错能力提升超过40%。
双方技术团队透露,下一步将重点拓展三大应用方向:一是开发大模型推理加速方案,降低AI应用部署成本;二是构建智能体应用部署框架,支持复杂AI系统的快速落地;三是针对医疗、金融等垂直行业,优化大模型训练与推理的专用算法。这些探索有望推动国产AI算力平台在更多产业领域的规模化应用。