全球顶尖学术期刊《自然》(Nature)最新一期封面,被来自中国的AI团队DeepSeek摘得。今年初,由梁文锋领衔的研究团队发布论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,首次证明仅通过强化学习(RL)即可激发大语言模型(LLM)的深度推理能力。这一突破性成果不仅登上封面,更引发学界与产业界的广泛关注。
研究团队颠覆传统训练范式,以DeepSeek-V3 Base模型为基础,完全摒弃监督微调(SFT)阶段,转而采用极简的强化学习框架。模型仅需接收两项指令:答案需包含
训练过程中,研究人员捕捉到令人惊叹的自我进化现象。随着迭代深入,模型在
尽管DeepSeek-R1-Zero展现出惊人推理能力,但纯强化学习导致的语言混乱与通用能力不足问题亟待解决。研究团队设计四阶段精炼流程:首先用数千条高质量对话数据微调模型语言习惯;随后通过强化学习平衡推理能力与语言流畅性;再将推理数据与海量通用数据混合训练;最终通过复杂奖励模型强化模型安全性与人类偏好对齐。经多轮优化,模型在Alpacaeval 2.0等基准测试中性能提升17%-25%,同时保持数学、编程领域的顶尖水准。
训练算法创新方面,团队摒弃传统PPO算法,采用更高效的GRPO(组相对策略优化)。该算法通过组内竞争机制,让模型针对同一问题生成16个不同答案,依据相对表现优化策略。这种"集体智慧"模式使资源消耗降低60%,同时保持训练稳定性。奖励系统设计同样精妙:数学、编程等任务采用严格规则奖励,确保答案完全正确;写作、对话等通用任务则引入基于模型的奖励,通过对比海量"好答案"与"坏答案"学习人类偏好。
开源后,DeepSeek-R1在Hugging Face平台创下1090万次下载纪录,成为全球首个通过同行评审的主流大模型。审稿人、Hugging Face工程师Lewis Tunstall指出:"这项研究证明,仅靠强化学习就能达到顶尖性能,其他团队正尝试将该方法扩展至更多领域。"俄亥俄州立大学研究员Huan Sun强调:"严格的同行评审验证了模型有效性,这种透明研究模式值得全行业借鉴。"
面对结构化输出、工具调用等能力局限,以及主观任务奖励设计等挑战,研究团队已启动下一代模型研发。值得注意的是,DeepSeek-R1的训练成本较同类模型降低80%,这种高效训练模式或将成为AI发展的新标杆。随着研究方法被全球实验室复现,一场由强化学习驱动的AI推理革命正在拉开序幕。