AIPress.com.cn报道
2月3日消息,据路透社报道,多名知情人士透露,OpenAI 对英伟达部分最新人工智能芯片在特定场景下的表现并不完全满意,自去年起已开始评估用于 AI 推理(inference)的替代芯片方案。
报道指出,OpenAI 调整芯片策略,主要源于其对 AI 推理阶段算力需求的重视不断提升。与训练大型模型不同,推理阶段涉及模型在实际使用中对用户请求作出响应,其性能直接影响应用的响应速度和用户体验。尽管英伟达在大模型训练芯片领域仍占据主导地位,但推理正成为新的竞争焦点。
多名消息人士称,OpenAI 已与 AMD 以及初创公司 Cerebras、Groq 等就推理芯片展开接触,评估其在速度和架构上的潜在优势。知情人士补充称,OpenAI 希望未来约 10% 的推理算力需求能够由不同于英伟达 GPU 的硬件承担。
2025年9月,英伟达曾表示计划向 OpenAI 投资最高达 1000 亿美元,并为 OpenAI 提供采购先进芯片的资金支持。该交易原本预计在数周内完成,但目前谈判已持续数月仍未落定。消息人士称,OpenAI 产品路线图的变化以及对计算资源类型的新需求,成为谈判进展放缓的原因之一。
针对外界关于双方关系紧张的报道,英伟达首席执行官黄仁勋近日公开否认存在分歧,称相关说法“毫无根据”。英伟达在声明中表示,客户之所以在推理领域继续选择英伟达,是因为其在大规模部署下具备最佳性能和总体拥有成本。
OpenAI 方面则回应称,公司目前仍高度依赖英伟达芯片来支撑其绝大多数推理算力,并认为英伟达在推理场景下提供了“最佳的性价比”。在路透报道发布后,OpenAI 首席执行官 Sam Altman 也在社交平台 X 上表示,英伟达“制造了世界上最好的 AI 芯片”,OpenAI 希望在未来很长一段时间内仍是英伟达的重要客户。
不过,消息人士透露,OpenAI 内部对英伟达 GPU 在部分应用场景中的响应速度存在担忧,尤其是在软件开发和 AI 与其他软件系统交互等高频、低延迟需求的任务中。该问题在 OpenAI 的编程产品 Codex 中尤为明显,一些员工认为其性能瓶颈部分源于当前 GPU 架构。
从技术层面看,OpenAI 对替代方案的兴趣,集中在采用大量片上 SRAM(静态随机存储器)的芯片架构。相比依赖外置显存的 GPU,SRAM 高度集成的芯片在推理过程中可减少数据往返时间,从而提升响应速度。由于推理阶段对内存访问的依赖程度高于训练阶段,这一差异尤为关键。
Altman 在1月30日与媒体的电话会议中也表示,使用 OpenAI 编程模型的客户“会对速度给予极高的优先级”。他指出,OpenAI 已通过与 Cerebras 的合作来满足部分高性能推理需求,而对于普通 ChatGPT 用户而言,速度要求相对宽松。
相比之下,Anthropic 的 Claude 以及 Google 的 Gemini,在部署中更多依赖各自的自研芯片,例如 Google 的 TPU(张量处理单元)。这些芯片针对推理和推理型计算进行了专门优化,在部分场景中相较通用 GPU 具备性能优势。
随着 OpenAI 明确表达对推理性能的更高要求,英伟达也开始主动接触 Cerebras、Groq 等 SRAM 架构芯片公司,探索收购或合作的可能性。最终,英伟达于去年12月与 Groq 达成一项价值约200亿美元的非独占技术授权协议,并表示 Groq 的知识产权与其产品路线高度互补。
该交易虽不排他,但 Groq 此后战略重心已转向云软件服务,同时英伟达也吸纳了 Groq 的部分芯片设计人员。(AI普瑞斯编译)











