近日,百度智能云混合云携手昆仑芯、HAMi(由密瓜智能主导的CNCF开源项目)推出了一项创新算力调度方案——基于昆仑芯P800的XPU/vXPU双模式资源调度体系。该方案已在某金融企业的昆仑芯集群中成功落地,为智能客服、营销辅助等十余类AI业务提供稳定且灵活的算力支持。通过整合整卡XPU与虚拟化vXPU资源,企业可在同一集群内实现算力的按需调用,既满足业务高效运行需求,又提升资源利用率。
在算力调度领域,百度智能云与HAMi合作构建的“XPU整卡+vXPU虚拟化”双模式体系,通过差异化策略适配不同业务场景。XPU整卡模式聚焦大规模训练任务,采用拓扑寻优调度与集群健康度评估技术,确保多卡协同下的通信性能与稳定性。系统自动识别服务器物理分区,优先在单侧翼内分配资源,减少跨分区通信开销;同时,通过评估节点拓扑规整度,选择最优调度节点,避免资源碎片化。这一设计使运维团队无需手动拼卡,即可实现大模型训练的稳定运行。
针对推理、开发测试等轻量化任务,vXPU虚拟化模式提供多粒度算力切分支持。该模式允许单张昆仑芯P800显卡被切分为1/4卡(24GB显存)或1/2卡(48GB显存)规格,满足细粒度算力需求。用户仅需声明所需显存,系统会自动匹配最优切分规格,例如申请20GB显存时,系统直接分配24GB规格,简化操作流程。通过“同规格共享”机制,同一物理卡仅允许相同规格的虚拟实例共享,进一步降低资源隔离与管理复杂度。
为应对灰度测试、硬件故障复现等特殊场景,方案设计了UUID精准控卡功能。运维人员可通过指定物理卡UUID,直接选定或排除特定卡片。例如,在新模型灰度发布时,仅需调用部分卡片完成验证;硬件故障排查时,可精准定位问题卡片进行调试,无需整机下线。这一设计结合自动化调度与人工调节通道,既保障日常调度效率,又赋予运维团队灵活管理的能力。
该双模式调度方案在金融行业的实践,验证了“场景驱动调度策略”的技术价值。通过整合开源生态与企业服务能力,方案不仅提升了国产AI硬件的利用率,也为复杂业务场景下的算力管理提供了可复制的解决方案。










