ITBear旗下自媒体矩阵:

从底层优化到架构创新:OpenAI幕后工程师Scott Gray的硬核技术之路

   时间:2025-10-01 20:51:39 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能领域,聚光灯往往聚焦于那些履历耀眼的明星人物,但真正推动技术突破的,往往是一群在幕后默默耕耘的工程师。近日,OpenAI一位低调的工程师因一项关键技术贡献引发行业热议——他编写的CUDA内核代码,支撑着每日数万亿次的模型训练计算量,成为支撑大规模AI模型的核心基础设施。

事件的起点源于社交平台的一则爆料。有用户透露,OpenAI通过某位工程师开发的定制化CUDA内核,实现了远超行业标准的高效计算。评论区迅速将目标锁定在资深工程师Scott Gray身上,而OpenAI官方资料也印证了他的核心职责:专注于深度神经网络在GPU上的性能优化。

为何编写高性能CUDA内核会引发如此关注?这项工作需要开发者同时精通三大领域:并行计算理论、GPU硬件架构以及深度学习算法。多数开发者仅停留在应用层使用现成工具,能深入底层优化训练过程(尤其是反向传播)的工程师堪称凤毛麟角。而Scott Gray的职业生涯,恰好为这一角色提供了完美注解。

他的技术生涯始于Nervana Systems——这家被英特尔以4亿美元收购的公司,曾是深度学习硬件优化的先锋。在深度学习爆发前夜,软件框架与硬件效率之间存在巨大鸿沟。当时主流开发依赖NVIDIA的CUDA生态,但多层软件抽象(CUDA C→PTX中间语言→SASS机器码)导致性能难以突破理论极限。Gray的解决方案是绕过所有中间层,直接与硬件对话。

他开发的maxas汇编器成为颠覆性工具。针对NVIDIA Maxwell架构,这款汇编器允许开发者手动编写SASS机器码,实现寄存器分配、内存延迟管理、指令流水线控制的绝对掌控。为验证其价值,Gray手写了单精度通用矩阵乘法(SGEMM)内核,在GM204 GPU上达到硬件理论峰值98%的计算效率,超越NVIDIA官方cuBLAS库4.8%。这一成果证明,即使硬件厂商的“黄金标准”也存在优化空间。

基于maxas的成功,Gray将优化方法论扩展至卷积计算。他开发的maxDNN框架采用128位纹理加载、激进双缓冲策略隐藏内存延迟,并通过数据重组实现完美内存合并访问。在AlexNet模型测试中,maxDNN的卷积层计算效率稳定在93%-95%,而同期cuDNN库的效率波动于32%-57%之间。在Overfeat模型的某个卷积层上,maxDNN甚至达到96.3%的峰值效率。

2016年加入OpenAI后,Gray的工作重心转向支撑大规模模型训练。随着Scaling Laws理论揭示模型规模与性能的正相关关系,稠密模型的无限扩张遭遇计算与成本瓶颈。Gray的解决方案是开发块稀疏(block-sparse)GPU内核,通过将权重矩阵划分为固定块并整体置零,使计算过程完全跳过零值块。这种结构化稀疏方法相比非结构化稀疏,在保持模型表现的同时大幅提升计算效率。

相关论文显示,Gray团队开发的块稀疏内核运行速度比处理稠密矩阵的cuBLAS快数个数量级,较通用稀疏矩阵的cuSPARSE也有显著优势。这种性能突破使OpenAI得以在固定计算预算内构建参数量远超以往的模型,例如宽度达同等稠密网络5倍的LSTM模型。基于这些内核,GPT-3、GPT-4、Codex和DALL-E等里程碑式模型得以实现万亿次级别的训练与推理。

值得注意的是,OpenAI延续了Gray在Nervana时期的开源传统,将块稀疏内核向社区公开。这一决策不仅推动了模型架构的创新,更验证了底层优化对AI发展的战略价值。从绕过CUDA抽象层到重新定义稀疏计算,Scott Gray用二十年时间证明:在AI革命中,真正的突破往往始于对硬件极限的挑战。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version