滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

从底层优化到架构创新：OpenAI幕后工程师Scott Gray的硬核技术之路

时间：2025-10-01 20:51:39 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，聚光灯往往聚焦于那些履历耀眼的明星人物，但真正推动技术突破的，往往是一群在幕后默默耕耘的工程师。近日，OpenAI一位低调的工程师因一项关键技术贡献引发行业热议——他编写的CUDA内核代码，支撑着每日数万亿次的模型训练计算量，成为支撑大规模AI模型的核心基础设施。

事件的起点源于社交平台的一则爆料。有用户透露，OpenAI通过某位工程师开发的定制化CUDA内核，实现了远超行业标准的高效计算。评论区迅速将目标锁定在资深工程师Scott Gray身上，而OpenAI官方资料也印证了他的核心职责：专注于深度神经网络在GPU上的性能优化。

为何编写高性能CUDA内核会引发如此关注？这项工作需要开发者同时精通三大领域：并行计算理论、GPU硬件架构以及深度学习算法。多数开发者仅停留在应用层使用现成工具，能深入底层优化训练过程（尤其是反向传播）的工程师堪称凤毛麟角。而Scott Gray的职业生涯，恰好为这一角色提供了完美注解。

他的技术生涯始于Nervana Systems——这家被英特尔以4亿美元收购的公司，曾是深度学习硬件优化的先锋。在深度学习爆发前夜，软件框架与硬件效率之间存在巨大鸿沟。当时主流开发依赖NVIDIA的CUDA生态，但多层软件抽象（CUDA C→PTX中间语言→SASS机器码）导致性能难以突破理论极限。Gray的解决方案是绕过所有中间层，直接与硬件对话。

他开发的maxas汇编器成为颠覆性工具。针对NVIDIA Maxwell架构，这款汇编器允许开发者手动编写SASS机器码，实现寄存器分配、内存延迟管理、指令流水线控制的绝对掌控。为验证其价值，Gray手写了单精度通用矩阵乘法（SGEMM）内核，在GM204 GPU上达到硬件理论峰值98%的计算效率，超越NVIDIA官方cuBLAS库4.8%。这一成果证明，即使硬件厂商的“黄金标准”也存在优化空间。

基于maxas的成功，Gray将优化方法论扩展至卷积计算。他开发的maxDNN框架采用128位纹理加载、激进双缓冲策略隐藏内存延迟，并通过数据重组实现完美内存合并访问。在AlexNet模型测试中，maxDNN的卷积层计算效率稳定在93%-95%，而同期cuDNN库的效率波动于32%-57%之间。在Overfeat模型的某个卷积层上，maxDNN甚至达到96.3%的峰值效率。

2016年加入OpenAI后，Gray的工作重心转向支撑大规模模型训练。随着Scaling Laws理论揭示模型规模与性能的正相关关系，稠密模型的无限扩张遭遇计算与成本瓶颈。Gray的解决方案是开发块稀疏（block-sparse）GPU内核，通过将权重矩阵划分为固定块并整体置零，使计算过程完全跳过零值块。这种结构化稀疏方法相比非结构化稀疏，在保持模型表现的同时大幅提升计算效率。

相关论文显示，Gray团队开发的块稀疏内核运行速度比处理稠密矩阵的cuBLAS快数个数量级，较通用稀疏矩阵的cuSPARSE也有显著优势。这种性能突破使OpenAI得以在固定计算预算内构建参数量远超以往的模型，例如宽度达同等稠密网络5倍的LSTM模型。基于这些内核，GPT-3、GPT-4、Codex和DALL-E等里程碑式模型得以实现万亿次级别的训练与推理。

值得注意的是，OpenAI延续了Gray在Nervana时期的开源传统，将块稀疏内核向社区公开。这一决策不仅推动了模型架构的创新，更验证了底层优化对AI发展的战略价值。从绕过CUDA抽象层到重新定义稀疏计算，Scott Gray用二十年时间证明：在AI革命中，真正的突破往往始于对硬件极限的挑战。

更多>同类资讯

字节“B面”MiniMax：以差异化路径突围AI江湖，走小而美之路

10-01

耶鲁等机构研究：ChatGPT普及未颠覆美就业市场，AI影响未超以往技术突破

10-01

亚马逊发布四款Echo智能音箱，搭载AI大模型Alexa+，规格功能亮点多

10-01

豆包大模型1.6-vision登场：首个具工具调用力的视觉深度思考新成员

10-01

耶鲁等机构研究：ChatGPT普及未致美国就业市场剧烈震荡，“就业末日”未现

IT之家从报道中获悉，英国标准协会调查显示，39% 的企业领导人称 AI 已经导致初级岗位减少，43%预计未来一年还会进一步削减。金贝尔表示：“AI 是否会真正改变就业市场仍然是未知数，我们需要持续观察，但…

10-01

AI赋能化学新篇：看中国科学家如何借力AI重构科研与产业版图

10-01

苹果回应马斯克公司起诉：与OpenAI合作合法合规，未来或携手更多AI伙伴

10-01

Meta高管谈AI影响：就业增减存变数，效率与岗位平衡成关键变量

10-01

OpenAI Sora2正式登场：影像引擎革新，Cameo功能开启视频创作新纪元

10-01

耶鲁等机构研究：ChatGPT普及未引发美国就业剧烈震荡，“失业潮”未现

10-01

亚马逊推出四款全新Echo智能音箱，搭载AI大模型Alexa+，开启智能生活新体验

10-01

手机AI智能体生态加速：厂商布局生态，实用隐私难题待解

10-01

苹果回应马斯克公司诉讼：与OpenAI合作合规，反垄断指控无依据

10-01

人工智能革命：科研先锋以生命为代价，铺就技术突破之路

10-01

CoreWeave再获大单：与Meta签142亿美元AI云合作，此前刚扩与OpenAI合作

10-01

点击查看更多 +

全站最新

青城山试驾奥迪E5 Sportback：德系驾控遇上中式智慧，豪华纯电新标杆

智驾非自驾！“智驾神器”存隐患，L2级辅助驾驶下切勿放手责任

上汽大众Pro家族2026款焕新登场，大厂底蕴加持下开启油车智能2.0新篇

猛士M817 Max+版36.99万上市！1365km超长续航+华为智驾，解锁全域智野新体验

宝马3系大改款倒计时：从设计到技术，重塑驾驶哲学引领电动新风潮

理想汽车9月交付量创新高签约代言人扩网补能迈向发展新阶段

热门内容

本栏最新

占地1300平方米！智元机器人全国首家具身智能体验中心落地无锡

第22届东博会AI元素亮眼：数字智能体引路机器人炫技展风采

AI云竞争下半场：华为以超节点、企业Agent等破局，谁能领跑产业？

2025网安周：每日互动刘宇谈AI时代，知识安全成关键，共筑数字新未来

中国大模型DeepSeek首登Nature封面，R1训练成本仅约208万引关注

华为全联接大会2025启幕，发布全球最强算力超节点与集群

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.