Epoch AI近期发布的一系列研究报告,揭示了人工智能领域多个维度的最新进展。在数学能力测试方面,开源中文大模型在FrontierMath基准测试中表现欠佳,1-3级得分落后全球顶尖模型约七个月,第四级更是几乎全军覆没,仅有DeepSeek-V3.2 (Thinking)取得1/48的分数。相比之下,GPT、Gemini等模型虽在传统数学测试中表现优异,但在FrontierMath上同样表现平平,不过仍优于中文开源模型。
FrontierMath的特殊性在于其由60余位数学界顶尖专家联合出题,并得到菲尔兹奖得主背书,涵盖数论、实分析、代数几何等高难度领域,甚至包含科研级别的原创难题。这种测试方式表明,当前AI在真正复杂的数学问题上仍显不足,更像是偶尔能翻到答案的小学生,而非成熟的解题机器。
在能力增长趋势方面,Epoch AI通过Epoch Capabilities Index(ECI)指标追踪发现,自2024年4月起,AI能力增长速度显著加快,近乎翻倍。这一变化主要得益于推理模型的强化和强化学习技术的广泛应用。尽管有人认为GPT-4之后AI进展放缓,但数据显示,AI的进步方向已转向核心技能如推理能力的加速提升,而非单纯依赖模型规模和参数数量的扩张。
Epoch AI的年终盘点还揭示了多个值得关注的趋势。在成本方面,LLM推理价格在2023年4月至2025年3月期间下降超过10倍,使得AI应用更加普及化。同时,前沿AI性能已能在消费级硬件上实现,顶级开源模型与顶尖AI的差距缩短至一年以内,预示着个人电脑运行AI大模型的时代即将到来。
在研发资源分配上,OpenAI 2024年的大部分算力用于实验而非训练或推理,显示出AI研发仍高度依赖大量试错和探索。芯片领域,英伟达的AI计算量自2020年以来每年增长超过一倍,每款旗舰芯片发布后三年内即占据大部分计算资源,凸显GPU在AI运算中的核心地位。GPT-4和GPT-5在基准测试中均实现重大飞跃,表明AI能力正在经历真正的跃迁,而非微创新的堆叠。
在技术细节方面,DeepSeek v3通过多头潜在注意力(MLA)、混合专家(MoE)架构改进和多token预测机制等三项核心技巧,在算力更低的情况下成为当时最强开源模型。其后续发布的R1模型性能与OpenAI o1相当,但开发成本显著降低,展示了架构创新在降低研发成本和加速落地方面的重要性。
关于推理模型的局限性,分析指出,尽管推理能力在数学和软件工程领域带来显著效果,但其增长存在明显边界。OpenAI和Anthropic预计,当前RL扩展速度最多维持1-2年,之后将触及算力基础设施上限。这一判断为研发规划提供了重要参考。











