近日,NVIDIA旗下搭载Blackwell架构的RTX 5090与RTX PRO 6000显卡被曝存在严重虚拟化漏洞。该问题在GPU通过KVM与VFIO技术分配至虚拟机后触发,当虚拟机关闭或硬件资源重新分配时,系统会执行PCIe功能级重置(FLR),但显卡无法恢复至正常状态,导致内核日志显示"FLR后65535毫秒仍未就绪"的警告。
GPU云服务商CloudRift在生产环境中首次发现该问题。其技术团队通过日志分析发现,受影响的显卡在触发漏洞后,不仅完全停止响应,连系统工具lspci都无法识别设备,错误提示显示为"未知头部类型7f"。更棘手的是,常规的操作系统重启无法解决问题,必须对主机进行物理断电重启才能恢复功能。
CloudRift已公开披露技术细节,并设立1000美元悬赏征集解决方案。该公司在报告中指出,问题可能与Blackwell芯片在虚拟化环境下的PCIe重置机制缺陷有关。目前已知的缓解措施如调整PCIe ASPM节能模式或ACS访问控制设置均无效,且该问题尚未在RTX 4090等旧型号显卡上复现。
AI企业Tiny Corp在复现测试后提出质疑,认为这可能是硬件层面的设计缺陷。社区反馈显示,多位RTX 5090早期用户遭遇类似故障:当关闭Windows虚拟机时,主机系统会完全卡死,即使通过操作系统重启,GPU初始化过程仍会失败。
技术社区正持续追踪事件进展,目前NVIDIA官方尚未对此作出回应。由于该漏洞严重影响云服务与深度学习工作站的稳定性,多个数据中心已暂停相关显卡的虚拟化部署。行业观察人士指出,若问题无法通过软件更新解决,可能对Blackwell架构的市场推广造成重大影响。