ITBear旗下自媒体矩阵:

奥特曼拉响红色警报,大语言模型是否已触达发展天花板?

   时间:2025-12-03 20:34:55 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

OpenAI近日陷入技术困境,公司CEO奥特曼向全体员工发出内部备忘录,宣布进入“Code Red”紧急状态。这一决策背后,既有谷歌、Anthropic等竞争对手带来的直接压力,也暴露出整个大语言模型行业面临的深层挑战:训练成本飙升、模型规模扩大但性能提升趋缓,技术发展似乎撞上了无形的天花板。

斯坦福大学发布的《2025年AI指数报告》显示,2019年至2022年间,训练成本每增加10倍,模型在主流基准测试中的性能平均提升25%-35%;但2023年后,同样成本投入仅能带来10%-15%的提升;2024年以来,训练成本翻倍时,性能提升甚至不足5%。这种投入产出比的断崖式下跌,让头部模型的表现逐渐趋同,仿佛集体陷入停滞。

用户数据的变化印证了这一趋势。谷歌Gemini 3模型在基准测试中超越OpenAI后,月活用户从7月的4.5亿激增至10月的6.5亿;Anthropic的Claude在企业客户中也颇受欢迎,截至2025年11月末,其周访问量达0.41亿人次,较六周前增长17.1%。相比之下,OpenAI的领先地位正被削弱。

更严峻的是,OpenAI在核心技术环节遭遇瓶颈。半导体行业分析公司SemiAnalysis披露,自2024年5月GPT-4o发布以来,OpenAI的顶尖研究人员未能完成任何大规模全面预训练。这意味着GPT-5并非通过全新训练迭代,而仅是对GPT-4o的微调优化。预训练作为模型开发的第一步,需要海量文本数据学习语言规律,无法完成这一环节将直接阻碍技术升级。MMLU基准测试结果进一步佐证了这一点:GPT-5的评分仅比GPT-4提升10%-20%,而其训练成本却是GPT-4的20-30倍。

面对双重压力,奥特曼在备忘录中宣布调整战略,将资源集中于优化现有产品。公司计划改进ChatGPT的个性化功能、提升响应速度与可靠性、扩大问题覆盖范围,同时推迟广告、健康助手、个人助手等项目的开发,鼓励员工临时调岗参与核心产品改进。此前,OpenAI曾在2025年10月拉响“Code Orange”警报,通过成立应急优化小组、调配50%以上研发资源聚焦核心业务应对竞争威胁,但此次“Code Red”的升级表明局势更加严峻。

OpenAI的困境并非个例。LMSYS Chatbot Arena的盲测数据显示,2024年6月排名第一与第十的模型Elo评分差距超过150分,而到2025年11月,这一差距已收窄至不足50分。主流模型在关键基准测试中的得分集中于狭窄区间,即使投入资源差异巨大,最终性能却愈发相似。例如,2023年3月GPT-4在MMLU测试中得分86.4%,同期竞争对手成绩多在60%-75%之间;但到2025年9月MMLU-Pro测试中,所有头部模型得分均集中在85%-90%,几乎无差别。模型更新周期也在延长:meta的Llama模型从第二代到第三代间隔约9个月,第三代到第四代预计间隔超15个月;Anthropic的Claude从第三代到第四代也耗时11个月。

学术界对大语言模型的发展路径存在激烈争议。以AI教母李飞飞为代表的学者认为,语言模型仅是AI系统的组件之一,实现真正智能需结合不同类型模型。她提出“世界模型”概念,主张通过观察视频、图像、传感器数据理解物理世界,而非依赖文本统计规律。谷歌DeepMind开发的AlphaGeometry已在此方向取得突破,其通过符号推理与神经网络结合解决奥林匹克几何问题,而非依赖语言模型。图灵奖得主杨立昆则直言,语言模型仅是“给鹦鹉喂更大的芯片”,真正的智能需建立对物体、空间、时间的因果关系理解。

另一派以OpenAI和Anthropic为代表。奥特曼坚持“规模假说”,认为扩大模型规模与数据投入将使智能“自动涌现”;联合创始人苏兹科维提出“压缩即理解”,认为无损压缩全球数据可构建世界模型;Anthropic联合创始人卡普兰则认为语言模型可成为智能基础,通过改进训练方法与结合其他技术实现通用人工智能。然而,MIT学者在《自然》期刊发表的研究指出,语言与思维独立,婴儿在学会说话前已具备物理世界理解能力,盲聋人群的思维能力也不受感官缺失影响,这为语言模型路径的局限性提供了认知科学依据。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version