AIPress.com.cn报道
NVIDIA正式发布CUDA 13.1,并推出过去二十年来幅度最大的一次更新——CUDA Tile编程模型。这项新功能被视为CUDA平台的重大里程碑,旨在让AI开发过程变得更简单、更高效,尤其是面向最新的Blackwell架构GPU。
与传统CUDA需要程序员手动规划每个线程执行路径不同,CUDA Tile允许开发者只需按“Tile(数据块)”划分任务,通过更高层的方式描述算法逻辑。至于这些Tile如何分配到线程、是否启用Tensor Core、如何调度执行,全部交给编译器和运行时自动完成,开发者可以减少大量硬件适配与性能调优工作。
首批支持CUDA Tile的GPU为Blackwell系列,未来版本将向更多架构扩展。为了保证可持续兼容,NVIDIA推出了CUDA Tile IR——一种面向Tile操作的虚拟指令集,让代码在现有和未来的Tensor Core架构上都能运行。同时,NVIDIA还发布了cuTile Python,让AI开发者可以直接在Python中使用Tile模型进行编程。
随着AI算力规模持续增长,Tensor已成为核心数据结构,Tensor Core和TMA等硬件的能力也快速提升。CUDA Tile的目标,就是把复杂硬件封装在底层,让开发者更专注于模型和算法,而不是线程分配细节,实现更高性能、更低门槛的GPU开发体验。(AI普瑞斯编译)











