滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

MIT新发现：AI模型内藏“专家库”，随机调整竟能激活专业能力

时间：2026-03-23 18:56:16 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

麻省理工学院计算机科学与人工智能实验室的一项新研究，为人工智能训练领域带来了突破性发现。研究者甘雨露和菲利普·伊索拉带领团队发现，经过充分预训练的大型AI模型内部，竟潜藏着大量具备专业能力的“任务专家”，且通过随机调整参数即可激活这些能力，甚至在某些场景下效果优于传统训练方法。

传统AI训练通常需要针对特定任务设计算法，通过大量数据迭代优化模型参数。而MIT团队的研究表明，当模型规模足够大且预训练充分时，参数空间会形成类似“丛林”的结构，其中分布着各类“专家”——有的擅长数学推理，有的精通编程，有的善于创意写作。这种“神经丛林”现象颠覆了人们对AI训练的认知：无需从零培养新能力，只需找到并激活已存在的专家即可。

研究团队通过实验验证了这一发现。他们以语言模型为例，随机生成数千个参数变化，测试其在数学、编程、写作等任务上的表现。结果显示，在5亿参数的小模型中，仅约5%的随机变化能提升性能；而在320亿参数的大模型中，这一比例跃升至60%以上。这意味着，大模型的参数空间中“专家”密度更高，随机搜索找到有效解的概率显著增加。

进一步分析发现，这些“专家”不仅数量多，且专业化程度高。例如，在数学任务中表现优异的参数变化，在编程任务上可能效果平平，表明模型内部形成了真正的分工。研究团队用“光谱差异度”指标衡量专业化程度，发现随着模型规模扩大，专家间的差异化愈发明显，类似人类社会中职业分工的细化。

基于这一发现，团队开发了名为RandOpt（随机优化）的训练算法。该算法分为两步：首先随机生成大量参数变化，筛选出在目标任务上表现最佳的“专家”；然后让这些专家组成团队，通过集体投票解决问题。实验表明，RandOpt在数学推理、编程、化学反应预测等任务上，效果可媲美甚至超越传统方法，且训练时间大幅缩短——无论任务复杂度如何，均只需一轮并行计算。

RandOpt的成功源于预训练模型的特殊结构。研究团队将参数空间比作地形图，预训练过程会根据不同任务数据“改造地形”，形成适合各类任务的“高原区域”。大模型的“高原”更宽广，随机搜索碰到有效区域的概率更高。同一任务可能存在多种解决策略，对应参数空间中的不同区域，这种多样性解释了专家团队为何优于单个专家。

实验验证了理论的普适性。团队在5亿至320亿参数的模型上测试RandOpt，覆盖数学、编程、写作、化学等领域。结果显示，随着模型规模扩大，RandOpt的效果提升显著。例如，在70亿参数的模型中，RandOpt将数学推理准确率从10%提升至85%。在视觉语言模型的图像问答任务中，RandOpt也将准确率提升了12.4%，表明“神经丛林”现象不仅限于文本模型。

深入分析发现，性能提升源于多重因素。以数学任务为例，约12.3%的改进来自推理能力提升，19.0%源于输出格式修正。这表明“专家丛林”包含不同类型：推理专家擅长解决复杂问题，格式专家则能优化输出规范。在图像生成任务中，团队还发现了“色彩专家”——不同参数调整会使图像倾向不同色调，进一步证明了专家的多样性。

这一发现对AI训练实践具有重要启示。首先，它简化了训练流程：传统方法需多轮迭代调整超参数，而RandOpt完全并行，可在3.2分钟内完成200个GPU集群的训练。其次，它改变了对预训练模型的理解——预训练不仅是起点，更是“专家生态系统”的载体，后续任务只需发现并激活已有专家。专家团队方法提高了可解释性：通过分析专家特长，可理解模型在何种情况下被激活，增强系统可信度。

尽管RandOpt优势显著，但其应用仍受限于预训练质量。在预训练不充分的模型上，专家丛林现象不明显，随机搜索效果下降。专家团队在推理时需更多计算资源，虽可通过知识蒸馏压缩模型，但增加了系统复杂性。研究团队指出，未来需探索更智能的专家发现方法，以及优化专家协作策略，以进一步提升效率。

A：指大型预训练AI模型的参数空间中，隐藏着大量具备专业能力的“任务专家”。这些专家各有所长，随着模型规模扩大，其密度和专业化程度增加，形成类似丛林的结构，随机搜索即可找到有效解。

A：该算法分两步：首先随机生成数千个参数变化，筛选目标任务上表现最佳的“专家”；然后让这些专家组成团队，通过集体投票解决问题。其优势在于完全并行，无需复杂迭代，训练时间恒定。

A：目前不能完全替代。其效果高度依赖高质量预训练，更适用于在预训练模型基础上快速适应新任务。对于从零训练或小模型，传统方法仍是必要选择。

更多>同类资讯

北京车展商汤绝影亮剑：以创新技术引领智能汽车驶向超级智能体新未来

SenseAutoGo依托生成式智驾R-UniAD2.0、NewMember2.0及SageBox千机智盒三大核心技术支撑，构建舱驾一体超级智能体，不仅可实现L4级自动驾驶的点到点高效接驳，更将智驾的安全可靠…

04-27

国产AI芯片崛起新势力：中星微技术以自主架构开启差异化突围之路

2025年4月发布的"星光智能五号"芯片，采用国产工艺制程，集成了高性能RISC-V CPU、GP-GPU、NPU及面向智能感知的ISP、VPU、ECU等多核心模块，成为首款全自主可控、可单芯片同时运行通用语…

04-27

高校运动会机器人“意外拥抱”女生，是故障还是新挑战？专家解读来了

当记者问及该举动是否为预先设定的程序时，工作人员解释道：“不是，当时我们了解的情况是机器人自己搞错了。” ▪ 从目前公开的信息来看，该事件可能属于机器人表演过程中的运动控制异常、动作执行偏差或现场安全冗余不…

04-27

江淮大地科技盛宴启幕：创新成果汇聚共绘产业新蓝图

从“智赋万物创享江淮”人工智能创新对接活动，到中国科学院科技成果转化“融合点”行动安徽专场对接会，再到核聚变能科技成果转化对接活动，本届科交会精准征集科技创新成果，深入挖掘企业技术需求，精心组织13场专项对…

04-27

廊坊自主研发！全球首款无飞溅内焊机器人填补国内技术空白

该设备由位于廊坊市的中国石油天然气管道科学研究院自主研发设计和生产，不仅创下全球首次管道主线路无飞溅内焊作业的纪录，更填补了我国TIG（非熔化极惰性气体保护焊）管道内焊机的技术空白。中国石油天然气管道科学研究…

04-27

深圳机场“机器人天团”上岗智能查验助力货物通关跑出“加速度”

另一侧的冷库区内，2℃-8℃的低温环境里，轮足复合式冷链查验机器狗身姿灵活，四肢交替间轻盈穿梭在码放整齐的冰鲜水产品货箱之间，时而俯身细致核查包装密封情况，时而抬头快速采集货物编码，动作麻利、精准高效，成为…

04-27

乐动机器人：以技术为笔绘就全场景庭院具身智能新蓝图

04-27

从生物肌梭到智能机器人：中国科大团队突破人工肌肉感知驱动新路径

04-27

富士通携手卡内基梅隆大学共启物理AI操作系统研发新征程

04-27

DeepSeek V4发布引股价波动，摩根大通：算力突破成行业利好新引擎

04-27

对话千里科技：L4爆发在即，印奇赵明详解智驾未来布局与雄心

04-27

蚂蚁灵光App上线新功能：上传图片秒级生成3D世界，手游操控自由探索

04-27

欣旺达动力“欣星环”大圆柱电池亮相，开启全场景能源应用新篇章

04-27

DeepSeek全系列API服务大降价 Pro模型限时2.5折输入成本大幅降低

04-27

Soul推AI语音创作平台“AudioFactory” 冲击IPO再添筹码但挑战犹存

04-27

点击查看更多 +

全站最新

北京车展商汤绝影亮剑：以创新技术引领智能汽车驶向超级智能体新未来

*ST海华上演“地天板”

港股异动丨MiniMax连续第三日大跌，DeepSeek输入缓存降价

A股异动丨英伟达市值重回5万亿引爆全球：A股半导体产业链多点开花，北方华创涨超7%，龙芯中科涨超5%

港股异动丨百度涨超5%，股价创2个月新高

人气股华电能源上演“地天板”

热门内容

本栏最新

OpenAI推订阅版Chronicle仅48小时 00后团队开源同类项目打破AI记忆付费壁垒

奥迪E7X首发亮相：激光雷达+电子后视镜+超长续航，豪华纯电SUV新标杆！

2026年车市“卷”出新高度！8款新车齐上市，6万多起续航超两千公里

福田汽车发布“苍穹”智能品牌以AI大模型赋能商用车全场景新生态

福田“苍穹”智能品牌发布：以AI大模型赋能，引领商用车行业迈向智慧新未来

维智捷纽交所敲钟上市：全球六分之一量产车“神经系统”背后的硬实力

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.