前OpenAI安全研究副总裁、现Thinking Machines Lab联合创始人翁荔在停更个人博客13个月后,以一篇题为《Scaling Laws, Carefully》的万字技术长文引发行业震动。这位自称“迟到了三年多”的研究者,通过系统性拆解支撑大模型行业数百亿美元投入的核心理论,指出当前主流模型的数据配比策略可能从诞生之初就存在方向性错误。
2020年,OpenAI研究员Jared Kaplan提出的“参数优先”理论曾主导行业方向。其研究显示,在双对数坐标系下,模型训练损失随参数量、数据量和算力的增长呈现幂律下降趋势,并得出“模型规模扩张速度应快于数据增长”的结论。这一理论直接催生了GPT-3的架构设计——1750亿参数搭配仅3000亿token的训练数据,成为后续大模型开发的范式标杆。
转折发生在2022年。DeepMind团队通过对比2800亿参数的Gopher与700亿参数的Chinchilla模型,发现参数仅为前者四分之一的Chinchilla,在配备四倍训练数据(1.4万亿token)的情况下,在所有基准测试中全面超越Gopher。这项研究颠覆了既有认知,指出参数与数据应保持1:20的等比增长关系。后续Llama、DeepSeek等模型虽参数规模不及GPT-3,却因遵循新比例实现性能反超,印证了该结论的普适性。
翁荔在长文中深入剖析了Kaplan理论的偏差根源。其研究指出,原实验基于最大仅15亿参数的模型得出结论,小规模区间的拟合误差在参数扩张至万亿级时被系统性放大。更关键的是,Kaplan团队在参数计数时排除了embedding层,这一操作在小模型中影响显著,但在参数规模指数级增长后被错误延续。2024年Epoch AI团队的代码复现工作进一步发现,Chinchilla原始代码中存在两处致命错误:损失函数错误使用均值而非求和导致优化器误判收敛,核心幂律指数被四舍五入至两位数引发虚假精度。修正后的数据再次验证了参数与数据等比增长的科学性。
当前行业面临的更严峻挑战在于数据枯竭危机。高质量文本数据预计将在2026至2028年间耗尽,而重复使用训练数据的边际效益呈指数级衰减。翁荔在文中嵌入的交互式模拟器显示,拟合精度或噪声水平的细微调整,可能导致外推预测结果产生数量级差异。这种对工程细节的极端敏感性,使得Scaling Laws更接近“观测性指南”而非传统物理定律。
这场持续三年的理论修正,正在重塑大模型研发的底层逻辑。从参数竞赛转向数据效率优化,从规模扩张转向架构创新,行业正经历着比表面参数数字更深刻的技术变革。当翁荔在文末写下“Scaling Laws是对工程细节高度敏感的观测性指南”时,或许正预示着大模型时代将进入更注重内在质量的新阶段。











