在阿姆斯特丹举办的KubeCon Europe大会上,英伟达宣布了一项重要举措:将其动态资源分配(DRA)GPU驱动正式捐赠给云原生计算基金会(CNCF),由社区主导后续的开发与管理工作。这一决策标志着原本由厂商主导的软件生态向开源协作模式转型,为全球开发者提供了更广阔的创新空间,同时确保技术能够与现代云原生环境深度融合。
据介绍,DRA驱动的核心功能是优化Kubernetes环境下的AI工作负载效率。通过支持动态分配GPU资源,开发者可以更灵活地调整计算能力,尤其在大规模模型训练场景中,这种灵活性能够显著提升资源利用率。该驱动整合了英伟达的Multi-Process Service与Multi-Instance GPU技术,允许单张GPU被多个任务共享或分割为多个独立实例,满足不同场景的需求。
在技术架构层面,DRA驱动通过Multi-Node NVlink技术实现了跨系统的GPU互联。这意味着开发者可以将多台服务器的GPU资源整合为一个计算池,为超大规模AI训练提供硬件支持。资源分配的精度也得到提升,开发者可以针对计算单元、内存带宽及网络连接等参数进行精细化配置,从而优化任务执行效率。
与DRA驱动同步推进的,还有英伟达在安全计算领域的布局。联合CNCF的Confidential Containers社区,英伟达推出了支持GPU加速的Kata Containers方案。该方案在保持硬件加速性能的同时,通过增强容器隔离机制,为AI工作负载构建了保密计算环境。这种设计既满足了数据安全需求,又避免了传统安全方案对性能的损耗。
开源生态的扩展是本次发布的另一重点。英伟达将KAI Scheduler项目纳入CNCF Sandbox,该调度器专门针对AI任务优化资源分配策略。同时,NemoClaw与OpenShell Runtime等工具的开源,为自主AI代理的安全运行和复杂工作负载管理提供了标准化解决方案。这些项目的共同特点是强调企业级应用的稳定性与可扩展性。
目前,所有相关项目均已开放源代码,开发者和企业可直接下载使用。英伟达鼓励社区成员参与贡献代码、提交功能需求或改进建议,以加速企业级AI基础设施的标准化进程。这种开放协作模式被业界视为推动AI技术普及的关键一步,尤其是在混合云与多云部署成为主流的背景下,开源方案能够降低技术门槛,促进创新成果的快速落地。










