滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

小模型层数好玄学：12/32/64层效果好，16/24/48/层效果糟

时间：2026-01-11 13:46:05 来源：量子位编辑：快讯 IP：北京 发表评论无障碍通道

一水发自凹非寺

量子位 | 公众号 QbitAI

小模型身上的“秘密”这下算是被扒光了！

知名开源项目OpenEvolve作者，刚刚用一篇长文揭示了70M小模型的几个重要发现：

其一，架构的重要性远低于大家的想象。相比之下，模型“形状”（深度-宽度比）更重要。

其二，小模型层数也存在“玄学”，12/32/64层效果好，16/24/48/层效果糟，而且最佳层数为32。

当然了，作者还解密了这一“层数玄学”的背后原因——“隐藏维度”是否大于等于512。

上述结论一出，社区里迅速刮起了一股讨论之风，大家还与作者进行了各种互动：

别急，咱这就详细看看——

发现小模型层数存在“玄学”

开始之前，简单介绍下作者Asankhaya Sharma。

他最为人熟知的成就主要包括：1）在很多人还主要围绕模型规模、参数量和训练方法打转时，他率先关注到了大语言模型的“推理时计算”，并以唯一作者的身份发表了一篇论文进行详细叙述；2）开源了OptiLLM、OpenEvolve、Adaptive Classifier等一众知名项目。

在本次研究之前，他和团队已经发现——

「50% FinePDFs+30% DCLM+20% FineWeb-Edu」是训练小模型GPT-2的最佳数据集组合，使用标准的12层架构，其平均准确率可以达到38.50%。

于是他们想接着探讨：模型架构是否和数据组成一样重要？

标准的GPT-2使用12层和768隐藏维度。但这设计于2019年，适用于约1.24亿参数。对于一个用10亿tokens训练的70M参数模型，这仍然是最优的吗？

为了弄清这个问题，他们着手开始了一系列实验。

实验第一步——确保除了模型架构，其他因素保持一致，包括模型参数、训练数据、训练时间和硬件配置等。

然后通过改变7种GPT-2变体的“形状”（即深度和宽度的变化），来对比同一架构内不同“深度-宽度配比”对性能的影响。

结果发现，从4层→64层，模型性能并未如预想那般，随着层数增加或减少而平滑变化，而是清晰分裂成了两个阵营：

“好”的层级：包括12L、32L、64L，平均得分在约38%左右；

“糟”的层级：包括16L、24L、48L，平均得分在约32%左右。

作者表示，两个层级之间平均相差超过6个百分点，且每个层级内部的差异极小（约0.5%），出现了明显的两极分化。

原因出在“隐藏维度”上

进一步分析表明，这一现象背后的关键因素是隐藏维度（hidden dimension）。

隐藏维度可理解为神经网络的宽度，每个词经由模型转换后都会变成一个数字列表。假设“人工智能”这个词的隐藏维度是768，它就代表这个词在模型内部会被表示成一个由768个数字构成的向量。

作者发现，模型的“隐藏维度”必须大于等于512，这是一个基础门槛。

当模型处于12层时，其隐藏维度恰好为512，所以表现出色。

至于宽度更窄的32层和64层模型也能成为“优等生”的原因，主要是它们通过特殊的深度配置进行了“补偿”——

前者属于“黄金补偿点”，在宽度为384的情况下，32层这个特定的深度能最高效地弥补宽度的不足，取得了所有配置中的最高分；而后者属于“暴力补偿”，虽然宽度只有256，但凭借极深的层数强行拉高了性能。

16L、24L和48L处于“死角”，它们的隐藏维度太窄，深度又不在可以弥补的最佳位置。

由此，作者也总结出了一套规则——

模型要想性能好，必须满足三种条件之一。1）隐藏维度大于等于512；2）正好处于32层；3）位于64层以上的极深层，以进行补偿。

而且必须再次提醒，32层属于全场最佳。当隐藏维度=384时，32层配置获得了38.50%的最佳总体得分，甚至略胜于标准的12层设计。

进一步发现：“形状”比架构选择更重要

在确定了“32层”这个最佳深度后，作者又比较了12种不同架构的表现，包括LLaMA3、Qwen3、Gemma3等模型。

结果发现，在70M模型范围内，所有现代架构的表现都惊人地相似，平均差异不到2%。

自回归模型：包括GPT-2、LLaMA3、Qwen3、Gemma3、MoE等，平均性能集中在32%到33%之间；

扩散模型：包括dLLM、Dhara等，平均性能集中在31%到32%之间。

作者表示，现代架构改进（RMSNorm、RoPE、GQA）是为70亿以上参数的模型设计的，在70M参数的情况下无法带来可衡量的优势。

完整测试结果be like：

这也意味着，对小模型来说，精心调整的“形状”可能比选择哪个具体的“架构变体”更重要。

意外之喜：扩散模型有自己的独特优势

虽然扩散模型的平均准确率略低于自回归模型，但研究认为这点“缺陷”完全可以通过其他方面弥补。

这主要体现在两大方面：推理速度和幻觉率。

和传统自回归模型相比，扩散模型的推理速度要快上3.8倍，非常适合处理批量任务。

且在所有测试架构中，扩散模型在衡量真实性的TruthfulQA基准上得分最高（达49.27%），表明其“幻觉”更少。

作者还顺带解释了这背后的原因，核心有三个：

双向注意力机制允许模型在做预测时考虑完整上下文。

迭代改进使模型能够在多个去噪步骤中“重新评估”其原始预测结果。

非自回归生成模型或许能够减少“滚雪球效应”，即早期幻觉累积成更大的误差。

不过，无论是自回归还是扩散模型，都可以用一个小技巧来增加事实准确性——

作者表示，通过在模型里加入一种叫“Canon层”的特殊结构（本质是一种精心设计的卷积层），普通模型能让事实性得分提升1%，扩散模型效果更明显，能提升超过2%。

而且增加的“Canon层”仅增加了0.13%的参数开销，性价比极高。

而更更重要的是，通过使用LLaDA 2.0论文中的Warmup-Stable-Decay方法，可以将现有的自回归模型高效转换为扩散模型。

划重点，需要的数据量、成本、训练时间通通仅为原来的1/10。而且作者发现：

WSD转换不仅与从头训练的结果相当，而且在几项基准测试上超越了后者。

推出集大成者： Dhara-70M模型

基于所有发现，作者和团队最后推出了Dhara-70M这个模型。

其构建方法为：首先采用最佳的自回归架构（LLaMA3-Canon），然后使用WSD方法将其转换为扩散模型。

如此一来，Dhara-70M也就具备了两者的优势——

既有自回归模型的知识储备，又有扩散模型带来的吞吐量和事实性优势。

作者表示，这项工作最大的意义或许在于提醒大家——

对于资源有限的小语言模型构建者，不应盲目追求最新的架构魔法。首先应关注基础的“深度-宽度配比”，确保模型不落入“死亡区域”；其次，如果应用场景需要高速处理且对事实准确性要求高，那么扩散模型是一个极具竞争力的选择。

更多>同类资讯

具身智能赋能新质生产力北京产学研协同加速机器人技术落地应用

01-29

金庸武学心法启新思！复旦团队实现原子层半导体抗辐射通信在轨突破

01-29

上海AI实验室等联合研究：让智能代理既“聪明”又“省钱”的破局之道

A：智能代理的效率问题是指这些AI系统在执行复杂任务时成本会像滚雪球一样越来越高。与普通大模型一问一答不同，智能代理需要记忆管理、工具使用、任务规划等多个步骤，每一步的输出都成为下一步的输入，导致资源消耗呈…

01-29

博物馆讲解机器人功率系统优化：MOSFET选型助力高效稳定智慧导览

本文以系统化、场景化的设计思维，深入剖析博物馆讲解机器人在功率路径上的核心挑战：如何在满足高可靠性、低噪声、紧凑空间布局和严格功耗控制的多重约束下，为电机驱动、多路功能负载管理及内部电源转换这三个关键节点，…

01-29

宸境科技发布Insight智能相机携手地瓜机器人推动双目感知技术规模化落地

2026年1月28日，地瓜机器人生态伙伴宸境科技发布全新LooperRobotics品牌及多款矩阵产品，即由Insight全自主空间智能相机、TinyNav高性能导航算法库与RoboSpatial空间编辑工具…

01-29

2026款北京越野BJ40燃油巨幕版登场！智能座舱硬核越野，13.29万起售

01-29

华为乾崑智驾ADS 4、HarmonySpace 5新版本官宣即将推送

01-29

极豆科技汪奕菲展望：汽车智能化加速 2026年开启汽车Agent新时代

01-29

从女教师到200亿女首富：周晓萍带星宇股份冲击港股“二次创业”

01-29

40岁陈天石财富狂飙1500亿：AI芯片赛道领跑者寒武纪的创富传奇

01-29

从钱学森手稿到星际学院：中国航天65年逐梦路，叩响宇宙新征程

01-29

理想调整研发架构，智驾部门将被重组

01-29

聚焦星际前沿！我国首个星际航行学院成立培育深空探索复合型人才

这所特色学院将聚焦星际推进、深空通信导航、空间科学等前沿领域，培育兼具扎实功底、战略视野与家国担当的紧缺复合型人才。朱俊强院士期许，经过接续奋斗，学院未来将成为中国科学院航空航天基础研究高地，为国家重大任务…

01-29

从课堂到深空：星际航行学院如何为中国未来航天铺就人才之路

翻看历史，早在1957年，钱学森先生就提出了建设星际航行学院的设想，并在后续著作中写道：“没有一支多学科和人数众多的科学技术队伍，就不可能设想全面地开展星际航行的工作。”其中，人才储备和培养是关键支撑，也是…

01-29

国内首个星际航行学院成立，跨界融合实战引领，培育深空探索栋梁之才

60多年前，中国科学院在钱学森、赵九章等科学家的倡议下召开了首次“星际航行座谈会”，继而成立“星际航行委员会”，为我国探索太空奠定了基础。 “未来10至20年，是我国星际航行领域跨越式发展的关键窗口期，原始…

01-29

点击查看更多 +

全站最新

DeepSeek下载量暴跌72.2%：用户流失背后，是行业生态的深层变革

外媒盛赞问界M9：全铝车身低风阻性价比远超同级路虎车型

智己LS9 Hyper旗舰SUV官宣亮相，携三大“首个”技术开启SUV新体验

2026款宝马i5 M60来袭！M运动基因加持，续航570公里，性能实用兼得

一汽-大众全新速腾S首发燃油车存量竞争下的精细化破局新招

2026款北京越野BJ40燃油巨幕版登场！智能座舱硬核越野，13.29万起售

热门内容

本栏最新

2026款北京越野BJ40燃油巨幕版登场！智能座舱硬核越野，13.29万起售

极豆科技汪奕菲展望：汽车智能化加速 2026年开启汽车Agent新时代

算法不应筑“回音壁”：打破定制评论区，让网络空间多元声音共存

马云谈AI时代教育变革：重点在于培养孩子好奇心与创意提问能力

鹿明机器人：数据与硬件双线突进，商业化落地面临哪些硬仗？

长城魏建军官宣：魏牌V9X携归元平台亮相，AI豪华六座旗舰新标杆来了

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.