中国AI领域迎来历史性时刻——DeepSeek公司凭借其R1大模型研究成果,成为首家登上《自然》杂志封面的中国AI企业。这一突破性成就标志着中国在基础大模型研究领域正式跻身全球顶尖行列,此前仅有DeepMind凭借AlphaGo和AlphaFold获得过同等殊荣。
最新披露的Nature版本论文首次公开了R1模型的训练成本细节:该660亿参数规模的模型仅耗资29.4万美元(约合人民币208万元)完成训练。研究团队使用512张H800 GPU,R1-Zero训练耗时198小时,R1训练耗时80小时,按每GPU小时2美元的租赁价格计算得出总成本。这一数据与行业动辄千万美元级的训练投入形成鲜明对比,年初发布时即在美股市场引发强烈震动。
在数据构建方面,研究团队彻底驳斥了"模型输出循环输入"的质疑。公开的补充材料显示,R1训练数据集包含五大类别:数学数据集收录2.6万道定量推理题(含竞赛题和考试题),代码数据集包含1.7万道算法竞赛题和8千道代码修复问题,STEM数据集涵盖2.2万道物理、化学、生物选择题,逻辑数据集包含1.5万道真实与合成问题,通用数据集则包含6.6万道覆盖创意写作、文本编辑等场景的评估题。
安全性评估体系成为另一大亮点。研究团队构建了多维评估框架:包括官方服务风险控制系统、六个公开安全基准的横向对比、内部安全测试集的分类学研究、多语言安全评估以及越狱攻击鲁棒性测试。评估结果显示,R1模型基础安全水平与GPT-4o相当,通过配套风险控制系统可进一步提升防护能力。
技术实现路径方面,研究团队采用纯强化学习框架突破传统依赖。以DeepSeek-V3-Base为基础模型,通过GRPO(群体相对策略优化)算法进行数千步强化训练,使R1-Zero在AIME 2024数学基准测试中pass@1分数从15.6%跃升至71.0%,经多数表决后更达86.7%,性能媲美OpenAI o1模型。后续推出的R1模型通过冷启动数据、拒绝采样、监督微调等多阶段优化,解决了初始版本的可读性和语言混合问题。
学术影响力持续发酵。截至当前统计,该研究在谷歌学术已被引用3596次,HuggingFace平台开源模型下载量突破1090万次(居开源模型首位),GitHub获得9.11万颗星标。评审专家、Hugging Face工程师Lewis Tunstall特别指出,这是首个通过同行评审的大型语言模型研究,为学术界树立了重要标杆。俄亥俄州立大学Huan Sun教授评价称,该研究自发布以来已实质性影响全球大模型强化学习研究方向。
开源生态建设展现中国AI新范式。研究团队在HuggingFace平台全面公开了R1和R1-Zero的模型权重,同步开源基于Qwen2.5和Llama3架构的蒸馏模型。这种透明化研究模式获得国际学术界高度认可,论文特别强调的"推理模式迁移"技术,已证明可使Qwen2.5-32B等基础模型通过知识蒸馏获得显著性能提升。