在人工智能领域的一项最新突破中,字节跳动旗下的Seed团队携手香港大学及复旦大学,联合推出了一项名为POLARIS的创新强化学习训练方案。该方案通过独特的Scaling RL策略,成功将小型模型的数学推理能力提升至与大型模型相当的水平,为AI小模型的优化开辟了一条崭新道路。
实验数据表明,利用POLARIS训练的Qwen3-4B开源模型,在AIME25和AIME24数学测试中分别斩获了79.4%和81.2%的准确率,其表现甚至超越了部分规模更大的非开源模型。尤为POLARIS-4B模型的轻量化设计,使其能够轻松适配消费级显卡,极大地降低了应用门槛。
POLARIS的核心创新聚焦于其训练策略。研究团队发现,通过为待训练模型量身定制训练数据和超参数配置,可以显著提升模型的数学推理能力。在实际操作中,团队精心调整了训练数据的难度分布,构建了一个略微偏向难题的数据集,避免了样本难度的过度集中。同时,引入了数据动态更新机制,根据模型在训练过程中的实时表现剔除过于简单的样本,确保训练的高效性。
在采样控制层面,POLARIS通过精细调节采样温度,实现了模型性能与生成路径多样性的平衡。研究发现,采样温度对模型性能和路径多样性具有重要影响,过高或过低的温度均不利于模型的训练。因此,团队提出了控制探索区的温度初始化策略,并在训练过程中动态调整采样温度,以保持生成内容的多样性。
针对长上下文训练的难题,POLARIS引入了长度外推技术,通过调整位置编码RoPE,使模型能够处理超出训练长度的更长序列。这一创新策略有效弥补了长文本训练中的不足,提升了模型在长文本生成任务上的表现。
POLARIS还采用了分阶段RL训练方法。在训练初期,使用较短的上下文窗口进行训练,待模型表现趋于稳定后,再逐渐增加上下文窗口的长度。这一策略有助于模型逐步适应更复杂的推理任务,提高了训练的稳定性和效果。
目前,POLARIS的详细训练方法、训练数据、训练代码及实验模型已全面开源。研究团队在多个主流推理评测集上对POLARIS的有效性进行了验证,结果显示,在应用POLARIS训练方法后,不同规模和家族的模型效果均得到了显著提升。
POLARIS的GitHub主页为:https://github.com/ChenxinAn-fdu/POLARIS
同时,POLARIS也在Hugging Face平台上设有主页:https://huggingface.co/POLARIS-Project