ITBear旗下自媒体矩阵:

华为联合三大高校开源Flex:ai 破解AI算力资源调度三大难题

   时间:2025-11-28 13:08:51 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在近期举办的“2025AI容器应用落地与发展论坛”上,华为携手上海交通大学、西安交通大学、厦门大学共同推出并开源了AI容器技术Flex:ai。这项技术通过虚拟化与资源池化手段,致力于实现算力资源的精细管理与智能调度,助力人工智能技术从专业领域走向更广泛的应用场景。

华为公司副总裁、数据存储产品线负责人周跃峰在论坛上指出,尽管人工智能常被视为高端技术,但如何让更多企业和家庭享受其带来的便利仍面临诸多挑战。他以医疗行业为例说明,单个医院科室通常仅配备少量算力卡,且年度ICT投入有限,导致GPU或NPU的调度难以高效进行。他提出疑问:“能否将一张算力卡虚拟化为多张,从而充分释放其潜力?”

华为数据存储产品线DCS AI首席架构师刘淼进一步分析了当前存在的三大问题:小任务单卡算力浪费、大任务单机算力不足以及多任务并发时的资源争抢。他表示,许多企业在模型开发阶段仅拥有有限算力,却需同时支持开发、训练和推理任务,如何让算力资源灵活运用成为Flex:ai的核心目标。

针对这些挑战,华为与三所高校分别从资源切分、跨节点聚合和智能调度三个方向展开研究。上海交通大学软件学院戚正伟教授介绍了XPU资源池化框架的原理:通过API劫持与转发技术,将单张GPU或NPU划分为更小的虚拟单元,实现资源共享与隔离。测试数据显示,虚拟化后资源利用率从20%提升至80%,支持多任务并行,整体效率显著提高。在NPU实验中,资源利用率甚至达到99%,且不同任务互不干扰。

厦门大学信息学院与上海交通大学计算机学院张一鸣教授关注到企业中普遍存在的“算力孤岛”问题。他介绍,团队研发的跨节点拉远虚拟化技术通过API劫持和RDMA高速网络,将分散的算力资源整合为“共享算力池”。通用服务器可透明地将AI任务转发至远端算力卡执行,实现通用计算与智能计算的融合。实验表明,该方案使高优先级作业吞吐量提升67%,并有效利用了17%的内部碎片资源。

西安交通大学计算机科学与技术学院院长张兴军教授将调度系统比作“算力网络的交通系统”。他指出,AI模型训练与推理需要计算与数据的协同,因此需从底层资源入手实现细粒度调度。团队与华为共同研发的Hi Scheduler调度器支持对国产GPU、NPU等异构算力进行时分与空分切分,通过分层调度机制应对负载波动。实际应用中,该调度器使集群资源利用率提升30%,并保障了多租户环境下的公平性与隔离性。

为推动技术普及与生态共建,华为决定将Flex:ai全栈技术开源,并与三所高校持续迭代。刘淼表示,开源模块包括智能调度器与算力虚拟化组件,支持与Kubernetes等主流框架集成,未来将推动南向异构算力兼容,构建标准化接口。戚正伟认为,开源能加速技术落地,相比受限于商业合作与硬件绑定的方案,Flex:ai更具通用性。张一鸣透露,厦门大学已布局拓扑感知调度、推理负载优化等后续研究,以推动技术在复杂场景中的应用。

华为2012实验室理论研究部首席研究员张弓从底层技术挑战出发,指出企业部署AI推理时面临“高服务质量与低资源利用率”的矛盾。他以医院为例说明,推理服务器白天负载高、夜间闲置,资源利用率极低。要实现动态扩缩、任务迁移与细粒度资源分配,需突破保序流图、细粒度资源隔离与安全点协议等技术。初步实验结果显示,单卡场景下故障迁移与性能隔离的开销控制在5%以内,但跨节点迁移与大规模集群调度仍是待解决的问题。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version