ITBear旗下自媒体矩阵:

清华团队突破:1.5B模型用极简RL配方实现SOTA,算力减半性能更优

   时间:2025-11-13 16:18:41 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当强化学习(RL)在小规模语言模型训练中掀起技术竞赛时,一种反其道而行之的极简方案悄然出现。清华团队近日公布的JustRL框架,通过完全摒弃课程学习、动态调参等复杂技术,仅用单阶段训练和固定超参数,便在1.5B参数模型上实现了数学推理能力的顶尖水平。这项研究不仅刷新了9项数学基准测试的记录,更以节省50%算力的优势,引发对强化学习技术复杂度的重新思考。

在DeepSeek-R1开源引发的技术浪潮中,如何用RL训练1.5B级推理模型成为焦点。过去半年间,业界涌现出多阶段训练、动态采样、KL重置等数十种优化技术,训练流程日益复杂。某代表性工作通过9个训练阶段和512次rollout探索,虽取得53.08%的平均准确率,却消耗了双倍于JustRL的计算资源。这种技术堆砌现象催生关键疑问:当不同研究组合使用不同技术子集时,如何判断哪些改进真正有效?

JustRL的突破始于一个朴素假设:如果充分扩展基础训练规模,简单方法能达到何种高度?研究团队采用标准GRPO算法,构建了"三无"训练体系:无阶段划分、无超参调整、无数据增强。实验选用两个基座模型进行验证:起点较弱的DeepSeek-1.5B(AIME 2024准确率29%)和较强的Nemotron-1.5B(准确率61%)。在完全相同的超参数设置下,两个模型在9项数学基准上均达到当前最优水平,其中Nemotron基座模型以64.32%的准确率超越采用课程学习的QuestA方案。

训练效率的对比更具冲击力。从弱基座起步的JustRL-DeepSeek模型,在32张A800 GPU上训练15天后,以1.4E+11 token的预算取得54.87%的平均准确率,较ProRL-V2的9阶段训练方案节省一半算力。更引人注目的是训练过程的稳定性:在4000步训练中,策略熵始终维持在1.2-1.4的健康区间,平均奖励呈单调上升趋势,响应长度自然压缩至4000-5000 tokens,全程未出现熵崩溃或探索失效等典型问题。

两个意外实验进一步颠覆传统认知。当研究团队尝试加入显式长度惩罚时,模型准确率从55%骤降至50%,原因在于惩罚项导致熵值过早压缩,阻碍了有效解题策略的探索。而改用宽松验证器的实验,则使性能下滑至45%,分析显示细粒度学习信号的缺失和格式约束的放松,反而削弱了模型的推理鲁棒性。这些"反向优化"案例表明,某些看似合理的改进在稳定基线上可能适得其反。

该成果的技术博客和开源模型已在网络公开,其核心启示在于:在充分扩展训练规模的前提下,简单方法可能比预期更强大。研究团队特别强调,这并非否定复杂技术的价值,而是主张先验证基础方案的极限。当行业习惯于做技术加法时,JustRL的实践证明,有时减去冗余设计,反而能发现更本质的解决方案。这种"减法哲学"或许能为RL训练提供新的评估维度——在追求创新之前,先确认简单方法是否已足够。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version