人工智能领域迎来重要技术更新,DeepSeek在知名学术平台arXiv上悄然更新了其R1模型相关论文。此次更新未伴随官方公告或社交媒体推文,仅通过版本号从v1调整为v2体现变化。细心的研究者发现,论文篇幅从原先的22页大幅扩展至86页,文件容量也由928KB增至1562KB,内容量呈现指数级增长。
新增内容涵盖完整训练流程拆解、二十余项评测基准的详细数据,以及长达数十页的技术附录。这种近乎重构式的更新方式,在学术界引发广泛关注。值得注意的是,此次更新恰逢R1模型发布一周年前夕,且距离农历春节仅有一个月时间,与该团队去年春节前发布V3和R1模型的传统形成呼应,引发业界对潜在技术突破的猜测。
新版论文最显著的变化在于训练流程的透明化。原版本简略描述的"冷启动SFT→强化学习→最终SFT"三阶段,被拆解为包含Dev1、Dev2、Dev3三个中间检查点的完整管线。数据显示,Dev1阶段模型指令遵循能力显著提升但推理能力下降,Dev2阶段通过专项强化学习恢复数学编码能力,Dev3阶段则通过拒绝采样优化输出稳定性。这种三段式训练架构,有效解释了R1模型在复杂推理任务中保持输出规范性的技术原理。
评测体系扩展是另一重大更新。除保留AIME数学竞赛、Codeforces编程等核心基准外,新增覆盖MMLU、DROP、GPQA Diamond等二十余项评测指标,形成多维度评估框架。特别引人注目的是,研究团队将R1-Zero的AIME成绩与人类参赛者平均分进行直接对比,显示模型通过多数投票机制可达86.7%的准确率,超越人类平均水平。这种"与人对标"的评测方式,为模型能力评估提供了新范式。
技术附录部分堪称研究者的"操作手册"。附录A详细披露GRPO算法的实现细节,包括学习率、KL系数等关键参数设置;附录B-F则系统阐述奖励函数设计、数据构造策略等实施要点。更值得关注的是,论文专门设置章节记录蒙特卡洛树搜索(MCTS)和过程奖励模型(PRM)等热门技术路线的失败尝试,分析其在通用推理任务中的局限性。这种坦诚分享失败经验的做法,在工业界主导的研究中尤为罕见。
此次更新的时间节点选择颇具深意。论文更新、模型周年纪念、传统春节发布窗口形成时间三角,结合团队近期发布的mHC架构论文,暗示新一代模型研发可能已进入关键阶段。人员构成分析显示,核心研发团队保持高度稳定,百余名贡献者中仅五人离职,这种人才保留率在竞争激烈的AI领域实属难得。
从技术演进路径观察,DeepSeek延续了"论文先行、模型跟进"的独特策略。V3论文详解MoE架构创新,R1论文拆解纯RL训练框架,mHC论文聚焦训练稳定性优化,形成完整的技术铺垫链条。此次86页论文的发布,既是对过往研究的系统性总结,也被视为新一代技术突破前的"清账"动作,其后续发展将持续引发业界关注。











