滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

清华等高校联合研究：AI扩散语言模型“自蒸馏”新法，效率飙升十倍

时间：2026-06-20 01:11:23 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

一项由多国科研机构联合开展的研究，为提升扩散语言模型的推理能力提供了全新思路。这项研究针对传统强化学习训练效率低下的问题，提出了一种名为d-OPSD的在线自蒸馏框架，在四项推理任务中实现了训练步数减少90%的突破性进展，相关成果以预印本形式发布，论文编号为arXiv:2606.18195。

传统强化学习训练扩散语言模型时，面临"稀疏奖励"的困境。模型需要完成整个推理过程后才能获得对错反馈，就像学生完成整张试卷后才能得知成绩，却无法知晓具体错题位置。这种训练方式导致模型需要海量尝试才能逐步收敛，例如在GSM8K数学题上，强化学习方法需要7700次梯度更新才能达到79.8%的准确率。

研究团队提出的d-OPSD框架，通过让模型同时扮演学生和教师双重角色，创造性地解决了这一难题。该框架的核心创新在于"未来信息利用机制"：学生模型先生成完整答案，教师模型在训练过程中可"窥见"学生答案中的部分内容，从而在每个去噪步骤提供精准指导。这种设计犹如让时间旅行者带着未来知识指导过去的自己，既保持了训练的在线性，又避免了依赖静态标准答案的局限性。

实验数据显示，d-OPSD在四项推理任务中均展现出显著优势。在MATH500竞赛数学题上，该方法仅需100次训练步数就达到37.2%的准确率，而强化学习方法需要6600次才能达到相同水平。在4×4数独任务中，d-OPSD以23.9%的准确率大幅领先强化学习的18.4%，且训练步数减少至425次，仅为后者的1/9。这种效率提升源于步级别监督机制——教师模型在每个去噪步骤的特定位置提供指导，而非等待最终结果。

研究团队深入分析了传统自蒸馏方法失效的原因。当采用将标准答案拼接在输入前的传统方式时，教师与学生模型的词汇预测重叠率高达99%，意味着教师未提供任何新增信息。而d-OPSD通过动态利用学生自身生成的答案，使重叠率维持在合理区间，确保了知识传递的有效性。实验表明，教师模型即使仅"窥见"25%的未来信息，其答题准确率仍比学生高出13.5个百分点。

为保障训练稳定性，研究团队引入了多项工程优化。通过固定教师模型参数避免监督信号波动，采用逐词裁剪防止梯度异常，以及只在正确生成上训练等策略，使模型在Sudoku任务上的准确率稳定提升至81%，远超未优化的69.37%。输入拼接技巧的采用，更使内存占用降低80%，为大规模模型训练提供了可能。

尽管d-OPSD在效率上取得突破，但研究也揭示了其局限性。在Countdown算术任务中，模型在175步训练后出现性能崩溃现象，准确率从峰值37.9%骤降至个位数。研究人员推测这与反向KL散度的"模式寻求"特性有关——模型过度聚焦特定解题模式，丧失了应对多样情况的能力。这一发现为后续研究指明了方向，即需要开发更稳健的训练目标函数。

该研究对扩散语言模型的发展具有重要启示。传统方法往往将不同类型模型的训练策略简单套用，而d-OPSD证明针对模型特性设计专属训练框架的重要性。对于资源有限的研发机构，这种方法提供了在计算预算内快速提升模型性能的有效路径。目前，研究团队已公开代码和模型权重，供全球研究者复现和改进这一成果。

更多>同类资讯

俄罗斯农业部：自年初以来矿物肥料出口增长7%

06-20

宇宙轮回新说：千万亿年后末日或成新生，科学猜想与观测交织探未来

06-20

月映千古情：十首诗词里的月色，诉尽人间悲欢离合与相思愁绪

06-20

探索深空新家园：火星能否成为人类星际迁徙的下一站？

06-20

沙特荒漠深处将建星空纽带建筑，赫斯维克工作室打造天文新地标

06-20

端午假期铁路购票紧张？12306“无票”却现“空座”，专家揭秘背后原因

06-19

印度五舱空间站设计亮相：舱段多却容积小，背后是多重能力差距

印度则属于典型的跨越式追赶路径，在尚未完全完成空间实验室验证、重型火箭尚未成熟、载人飞行尚未实现的情况下，直接规划五舱空间站方案，其本质是对现有能力的一种结构性折中，以实现拥有自主空间站这一战略…

06-19

黄景瑜300万飞太空背后：前央视主持雷诗情跨界创业，掌控首批登天名单

大家讨论的重点几乎都落在两块：一是票价高得让普通人望而却步，二是黄景瑜背后的能量似乎大得惊人，竟然能拿下这种有市无价的体验资格。还有一处细节很多外人并不清楚——雷诗情给自己也锁定了一个太空体验席位。一个…

06-19

比地球小未必不宜居？斯坦福新模型解锁行星大气层“生命密码”

最近一项来自斯坦福大学的研究告诉我们，答案比想象中更有层次——“比地球还小”的行星并非立刻被排除在生命候选名单之外，但能否长期保有大气层，决定了它们能不能成为真正的宜居行星。模型显示，当行星半径至少达到地球的…

06-19

大质量恒星坍缩或有新可能：微型宇宙诞生或催生稳定引力星

正如暗能量被认为推动我们宇宙的膨胀一样，它也会驱动这个新形成的微型宇宙的生长。最终，膨胀的微型宇宙和坍缩的恒星物质之间形成了一种平衡。丹尼尔扬波尔斯基在卢西亚诺雷佐拉的指导下完成硕士论文时发现了这一解决方案…

06-19

桂海潮：从偏远小城走出的非军籍宇航员，背后有怎样的传奇与支持？

在太空的日子里，桂海潮和同伴们完成了多个重要实验，并通过直播向公众科普太空知识和应急措施。桂海潮在礼堂发表了简短的演讲，分享了他在太空中的经历和感悟。桂海潮再次站在了航天任务的前线，他与团队成员一起，前往酒泉…

06-19

从地面到太空！云南“彩云光学01星”开启自主遥感新时代

大多数卫星就像一台老式相机：拍了照存起来，飞过地面站的时候把数据传下来，然后地面的人慢慢看、慢慢算。AI算法可以在轨更新——卫星上天之后，地面的程序员还能给它上传新版本的识别模型，不用靠出厂时的老版本。天…

06-19

你手中的水或来自45亿年前彗星“送水”新证：分子指纹与海水高度吻合

科学家盯上了一颗叫12P/庞士-布鲁克斯的彗星，把它带的水成分一查，发现跟咱地球海水几乎对得上号。这事的分量在于，它给一个争了几十年的老问题递上了新证据——地球上这么多水，到底是打哪来的。这是这一类彗星里…

06-19

端午惊喜！本能工作室短剧圈“撒礼” 上千份礼盒刷屏引关注

06-19

印度证券监管机构允许企业从公开市场回购股票

06-19

点击查看更多 +

全站最新

极佳视界获10亿B2轮融资：以「双金字塔」驱动，加速物理AGI突破与场景落地

玛莎拉蒂焕新出击：三款车型齐改款，新轿车计划也提上日程

保时捷Taycan更新：E-Shift虚拟换挡登场，电动跑车能否重燃驾驶激情？

氢能两轮车批量落地：补能快续航稳，能否与锂电车共舞出行新未来？

探秘成都汽车城：266种测试场景护航，高端新能源“成都造”蓄势待发

本田Prelude 2027限量版登场，全红内外饰吸睛，目前仅在日本市场发售

热门内容

本栏最新

油田绿电制氮车邂逅氢能：开启多功能综合能源应用新前景

绿电制氮车：从试点到推广，为国内油田注入绿色高效新动能

云桌面革新企业智慧办公：集中管理、远程运维，提升IT管理效能与安全

AI多智能体协同开发：轻量APP从灵感到Demo的4步高效实践

视觉中国拟赴港上市谋“A+H”格局近三年营收波动净利下滑

支付宝政务AI“晓政”服务超1亿次，助力政务升级让群众办事更便捷高效

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.