在科技界的一次意外之举中,OpenAI打破了多年的沉默,宣布开源两款全新的推理模型——gpt-oss-120b与gpt-oss-20b。这一举动发生在深夜,无疑给期待GPT系列新作的网友们带来了意想不到的惊喜。
这两款模型的名字简洁明了,gpt-oss即代表“开源系列”(Open Source Series),象征着OpenAI在开源领域迈出的新步伐。gpt-oss-120b拥有约1170亿参数(采用MoE架构,激活参数约为51亿),能在单张80GB GPU上流畅运行,其性能与闭源的o4-mini不相上下。而gpt-oss-20b则配备210亿参数(同样采用MoE架构,激活参数约36亿),能在配备16GB内存的普通消费级设备上运行,性能接近o3-mini。
值得注意的是,这两款模型均采用了Apache 2.0许可证,允许商业使用且无需付费或授权,这无疑为开发者和研究人员提供了极大的便利。从性能角度看,gpt-oss系列已经达到了开源模型中的顶尖水平,尽管在代码生成和复杂推理任务中仍稍逊于闭源模型,如GPT-o3和o4-mini。
OpenAI首席执行官Sam Altman在社交平台上第一时间分享了这两个模型的“价值”:它们不仅可以在本地笔记本上运行(gpt-oss-20b甚至能在手机上运行),还是耗资数十亿美元研究成果的结晶。AMD首席执行官Lisa Su也迅速响应,表达了对Altman的支持,并称自己很荣幸成为OpenAI的首批合作伙伴。
在模型发布后不久,OpenAI官方还发布了一段实测效果视频,展示了gpt-oss系列在实际应用中的表现。视频中,OpenAI的两位员工在一台120G的Macbook Pro上,借助Ollama在本地运行了120B的gpt-oss(配备了两块H100 GPU)。他们测试了gpt-oss在思维链中调用工具的能力,包括搜索和Python解释器,结果显示gpt-oss能够稳定输出正确结果。在断网的情况下,他们还展示了gpt-oss在本地运行射击游戏和修改游戏图标的能力,整体体验流畅,生成速度达到了40-50 tokens/s。
除了实测效果,OpenAI还发布了关于gpt-oss的技术博客,详细介绍了这两个模型的预训练与架构、后训练阶段以及评估结果。博客中提到,gpt-oss模型使用了OpenAI最先进的预训练和后训练技术,特别注重推理、效率和广泛部署环境中的实际可用性。这些模型在工具使用、少样本函数调用、链式思考推理以及健康问答等方面表现出色,甚至超越了包括OpenAI o1和GPT‑4o在内的专有模型。
OpenAI表示,开源gpt-oss系列模型是为了推动AI技术的民主化,降低新兴市场、资源受限行业以及中小型组织进入AI的门槛。这些开源模型为开发者提供了更丰富的工具选项,有助于加速前沿研究、推动创新,并支持更安全、透明的AI开发。如今,全球更多人可以借助这些强大、易获取的工具进行建设、创新,并为自己和他人创造新的机会。
然而,对于广大网友来说,最关心的问题似乎仍然是GPT-5何时发布。尽管OpenAI此次开源了两款强大的推理模型,但网友们对于GPT系列的下一代作品仍然充满期待。