滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

打破AI训练"铁律"：旧数据回放如何让大模型训练既省电又高效？

时间：2026-04-23 01:09:37 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能训练领域，一项突破性研究正挑战着行业长期坚守的“铁律”——传统观念认为，训练AI必须使用全新数据，旧数据用过即弃。然而，meta旗下基础人工智能研究团队与纽约大学柯朗研究所的联合研究，通过大量实验证明，在特定条件下，重复利用旧数据不仅能显著降低训练成本，还能提升模型性能。这一发现为大型语言模型（LLM）的强化学习训练开辟了新路径。

强化学习是训练AI的核心环节之一，其过程类似“考试-批改”循环：AI通过生成大量练习素材（如回答问题的完整文本）进行自我评估，再根据反馈调整参数。然而，生成这些素材的计算成本极高，在顶尖训练流水线中，仅这一环节就消耗超80%的资源，相当于八成电费用于“出题”而非“批改”。更关键的是，当前主流模式采用“生成即丢弃”策略，每次训练后直接丢弃素材，导致资源严重浪费。

研究团队提出的解决方案名为“经验回放”（Experience Replay），其核心是将生成的练习素材存入“题库”（重放缓冲区），训练时从题库中随机抽取旧素材重复使用，而非每次都生成新数据。这一技术虽在游戏AI领域早已成熟，但在大语言模型训练中长期被忽视。研究团队通过系统实验，首次明确了题库设计的关键原则：如何平衡数据新鲜度、计算效率与多样性。

题库设计的核心矛盾在于“过期度”——随着AI参数不断更新，旧素材与当前模型水平的差距逐渐扩大，可能引入错误信号。研究团队通过数学建模量化了这一关系：题库规模越大，素材平均过期度越高，但随机抽题可降低局部重复率（即短时间内连续使用同一素材），避免模型陷入“死记硬背”；反之，题库过小会导致局部多样性丧失，训练效果下降。研究还区分了“全局多样性”（整个训练周期中素材的平均使用次数）与“局部多样性”（短时间内连续使用同一素材的程度），指出局部多样性的损失危害更大。

为优化题库设计，研究团队构建了非凸随机优化数学框架，推导出最优题库规模的计算公式。该公式表明，当生成素材的计算成本（μ值）远高于训练一步成本时，扩大题库规模、提高重放比率（同一素材被重复使用的次数）可显著提升效率。例如，在参数量为7亿的Qwen2.5-7B模型中，μ值约为5.28，意味着生成一批素材的成本是训练一步的5.28倍。此时，若配置4个推理GPU（负责生成素材）和4个训练GPU（负责调整参数），计算比率γ可低至0.32，即每次参数更新仅需原成本32%，节省68%的计算开销。

实验验证了理论的有效性。研究团队在Qwen3-0.6B和Qwen2.5-7B模型上，使用数学推理数据集进行测试，发现题库规模扩大虽会减缓训练速度，但能稳定训练过程，防止模型崩溃，并提升输出多样性。例如，在评估模型解题能力的MATH基准测试中，使用题库的模型不仅达到更高准确率峰值，且崩溃时间更晚。题库还显著提升了“pass@k”指标（即对同一问题尝试k次至少答对一次的概率），表明模型保留了更丰富的解题思路。

进一步优化中，研究团队提出两种改进策略：一是“正偏向采样”，即题库中保留一部分最新正确解答的素材，因其“有效期”更长；二是更换训练损失函数，采用AsymRE替代标准GRPO，以规避高过期度下的方差问题。实验显示，两种策略结合使用可进一步提升训练效果。

这一研究对AI训练的普及具有实际意义。降低计算成本意味着在相同预算下可训练更强模型，或以更低成本提供AI服务。例如，若训练成本降低40%，AI公司可将资源投入模型优化或价格竞争，加速技术落地。然而，研究团队也指出，当前实验仅限于0.6亿至8亿参数的模型，在更大规模模型（如数百亿参数）上的有效性仍需验证。题库规模和重放比率的最优设置依赖模型特定的μ值，实际部署需针对具体环境调优。

该研究引发了对AI训练领域“常识性偏见”的反思：若反复使用旧数据这一反直觉策略已被证明更优，那么还有多少类似偏见正在浪费计算资源？这一问题的答案，或许将推动整个领域探索更高效的训练方法。

更多>同类资讯

全新AI技术ZipMo：剥离画面“看透”运动，视频预测效率飙升

04-23

华为加拿大团队新突破：失真图让AI“看图”从整体到局部更精准

04-23

千万网红蓝战非回归带货成绩亮眼，从游戏达人到旅行博主的蜕变之路

04-23

鸿蒙智行四车齐发：尚界问界攻年轻市场，智界M9稳高端格局

04-23

京东“独狼”第六代智能配送车Plus版亮相：载重续航升级，L4级自动驾驶引领物流新变革

04-23

中国移动5G-A超级上行启航：千兆上行赋能新场景加速智能化升级

04-23

俞敏洪邀10名东方甄选会员2027年共赴南极，费用平台承担引关注

04-23

科技轮回：从黑窗口到AI时代，CLI复兴或开启人机交互新纪元

04-23

2025拍照手机大比拼！OPPO、iPhone等热门机型谁更胜一筹？

后置摄像头方面，标准版是强悍的三摄组合，Pro 版更是升级为四摄，2 亿像素 HP5 长焦镜头，长焦拍摄能力十分突出。综合来看，OPPOFind X9 系列在长焦、前置拍照清晰度、拍照防抖等多个方面都有出…

04-23

成本飙升行业承压，OPPO Find X9s Pro成年内不涨价旗舰“孤勇者”

但在价格上，OPPO却没有涨价。早在今年2月，三星发布Galaxy S26系列时，相比上一代已涨价1000元；荣耀MagicV6虽然守住了8999元的起售价，但16GB高内存版本也涨价近千元。在此情况下…

04-23

成本攀升压力下不涨价！OPPO刘作虎：Find X9s Pro成年内旗舰“性价比之选”

04-22

金标联盟携手vivo等厂商推进“公平运行内存机制” 助力安卓应用优化升级

04-22

AMD锐龙9 9950X3D2性能怪兽来袭华硕X870E系列主板成梦幻主机绝配

04-22

港股IPO热潮涌动：千亿市场人才告急，百万高薪难觅保代“良将”

04-22

GPT Image 2来袭：图像生成新标杆，设计师职业面临新挑战

04-22

点击查看更多 +

全站最新

钛动科技获农行百亿授信！一张对民营AI科技企业的"信心投票"

公告精选︱顾家家居：拟不超11.88亿元投资建设产业总部项目；沪电股份：一季度净利润12.42亿元同比增长62.9%

江西铜业股份(00358.HK)获贝莱德增持3.4万股

京东AI新探索：实习生挑大梁，大厂抢人从“0到1”培养开始

盒马自研一体化牛奶新包装，减纸超四成，环保与体验双提升

京东与松延动力强强联合共绘人形机器人全场景应用与普及新蓝图

热门内容

本栏最新

京东AI新探索：实习生挑大梁，大厂抢人从“0到1”培养开始

盒马自研一体化牛奶新包装，减纸超四成，环保与体验双提升

京东与松延动力强强联合共绘人形机器人全场景应用与普及新蓝图

“先爆再圆”成套路：热搜是传播利器还是信任“杀手”？

雷军官宣2026北京车展小米汽车参展阵容概念车国内首秀现场还能领车模与饮用水

雷军揭晓2026北京车展小米参展车型：SU7系列与VGT概念车齐聚首秀

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.