滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

天津大学等高校联合破局：AI异步训练“旧概率缺失”难题有解了

时间：2026-05-20 06:22:23 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能训练领域，一项由多所顶尖高校及研究机构联合完成的研究，为解决异步强化学习中的关键技术难题提供了新思路。该成果发表于国际顶级学术会议，针对大模型训练中普遍存在的“旧策略概率缺失”问题，提出了一套从工程优化到算法改进的系统性解决方案，相关论文可通过学术平台查询完整内容。

强化学习作为AI智能体提升能力的核心方法，其训练过程类似于“试错-评分-改进”的循环。以对话模型训练为例，系统会先让模型生成回答，再根据回答质量调整策略参数。这一过程中，近端策略优化（PPO）算法通过计算“重要性比率”来衡量新旧策略的差异，确保策略更新平稳可控。然而，当训练系统采用异步架构时，生成回答与更新策略由不同计算单元并行处理，导致训练系统难以获取生成回答时对应的旧策略参数，这一技术漏洞被称为“旧逻辑值缺失”。

研究团队指出，该问题会引发双重偏差：一方面，推理引擎与训练引擎因数值计算方式差异导致概率计算结果不一致；另一方面，策略更新过程中，旧策略参数被新版本覆盖，导致训练系统用新策略标准评估旧策略生成的回答。这两种偏差相互纠缠，使得重要性比率的计算失去语义准确性，最终导致训练效率下降甚至模型性能退化。现有训练框架多采用插值代理策略绕过该问题，但数学证明显示，这类方法仅是改变了约束条件的表达形式，并未真正恢复缺失的旧策略信息。

为破解这一难题，研究团队提出三条工程优化路径。第一条路径通过定期保存模型参数快照，在需要时重新加载计算旧策略概率。实验表明，该方法对40亿参数模型单步训练增加约95秒耗时，300亿参数模型则需额外178秒及76GB内存。第二条路径采用专用模型实例专门计算旧策略概率，与主模型并行运行。当资源分配比例为1:2时，训练时间可节省6.8%，但比例调整至1:3时反而增加7.17%耗时。第三条路径在策略更新前主动中断部分对话生成任务，利用旧参数未被覆盖的窗口期计算概率。该方法无需存储历史参数，但会引入同步停顿，增加系统调度复杂度。

针对工程方案的高成本问题，研究团队重点开发了基于指数加权移动平均（EWMA）的近似算法PPO-EWMA。该算法通过动态调整历史策略的权重，构建出一个随时间演变的代理参考策略。其创新之处在于：根据异步程度自适应确定衰减系数，使代理策略的“记忆中心”与缺失的旧策略时间位置对齐；引入自动重置机制，当历史偏差积累超过阈值时，将代理策略重置为当前策略，防止训练崩溃。实验数据显示，在40亿参数模型上，PPO-EWMA在零售场景的pass@4指标达到90.35，接近快照方案的90.47；在300亿参数模型的航空场景测试中，其pass@4得分达82分，优于快照方案的80分。

系统成本分析显示，PPO-EWMA对40亿参数模型仅需额外7.9GB内存和8秒耗时，300亿参数模型需15.2GB内存和34秒耗时，仅为快照方案成本的五分之一。进一步实验表明，差异修正的过滤阈值与策略陈旧的约束阈值存在动态关联：宽松的策略约束会加速早期训练但引入噪声，严格的差异修正会减少训练信号但提升稳定性。这一发现验证了两种修正机制需独立设计的必要性。

该研究通过数学推导与大规模实验证明，异步强化学习中的策略版本对齐问题不可忽视。PPO-EWMA算法及其自动重置机制，为工业级训练系统提供了低成本解决方案，其核心思想已通过40亿至300亿参数模型的测试验证。论文详细披露了所有数学证明、系统测量数据及实验配置，为后续研究提供了重要参考。对于需要处理异步训练场景的开发者，该成果提出的分层约束设计理念与动态参考策略构建方法，具有直接的应用价值。

更多>同类资讯

苹果明年推新款iPad Pro MacBook Pro，配M7芯片

07-02

博主实地探访法拉第未来厂房：早已人去楼空

07-02

华为鸿蒙HarmonyOS 6终端设备数持续攀升，7月已突破7000万大关

6月12日，华为常务董事、产品投资评审委员会主任、终端BG董事长余承东宣布：HarmonyOS6终端设备数突破6600万，用时一年两个月。同日，华为在HDC 2026上正式发布HarmonyOS 7操作系…

07-02

古尔曼爆料：苹果2027年春季或推新款iPad Pro，聚焦芯片升级与散热优化

07-02

乐享科技获近5亿Pre-A轮融资，发布“元点Zeroth”开启家庭具身智能新篇

07-02

华为openJiuwen开源新引擎：让AI记忆自主生长，跨会话持久“记得你”

07-02

因果世界模型破局具身智能困境，Aether AI或引领AI范式新变革

07-02

AI从内容生成迈向世界构建：3D大模型成关键底座与新生产力路线

07-02

浙江理工马啸与南大李武军团队携手，创新提出EMCES提升强化学习样本效率

07-02

对话探月校长王熙乔：AI浪潮下十年探索，共绘教育新蓝图与文明新篇

07-02

AI提升科研效率却致探索萎缩：科研人究竟需要怎样的AI工具？

07-02

三星1.4nm量产时间延后同步披露2nm完整演进路径及本土合作成果

07-02

苹果明年将推新品：全新iPad Pro升级亮相入门级MacBook Pro焕新登场并计划发布基础版M7芯片

07-02

优必选CEO周剑：未来机器人或主导工作，人类应珍惜当下劳动时光

07-02

数字文旅：新兴方向崛起，旅游院校如何借势培养行业新人才？

海鳗云长期聚焦旅游大数据与文旅数字化应用，致力于将产业实践经验转化为可用于院校教学的课程资源和实训平台，通过真实行业数据、可视化分析工具和场景化实训任务，助力旅游教育对接行业数字化转型需求，帮助院校在数字文…

07-02

点击查看更多 +

全站最新

春水堂仿真人形伴侣机器人开启预售，聚焦陪伴场景，1.5万元级能否走进生活？

乐享科技获近5亿Pre-A轮融资，发布“元点Zeroth”开启家庭具身智能新篇

汽车充电桩选型全攻略：从技术参数到售后支持的多维度解析

宝马X5纯电版iX5 60 xDrive登场：续航700公里，配置升级价格“卷”出新高度

自驾旅行必备！车载汽油发电机给锂电池充电全流程指南来啦

技术赋能与人文坚守：杨君媒介理论三次跃迁下的传播范式革新

热门内容

本栏最新

乐享科技获近5亿Pre-A轮融资，发布“元点Zeroth”开启家庭具身智能新篇

数字文旅：新兴方向崛起，旅游院校如何借势培养行业新人才？

零跑D19：21.98万起四驱空悬加持，订单持续走高底气何在？

地平线HSD V2.0开启最大规模OTA升级以双引擎驱动端到端智驾新进化

特斯拉23年：从电动跑车到AI现实，业务版图持续拓展未来可期

安波福慕尼黑上海电子展发力：发布创新技术，赋能汽车与多元工业新未来

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.