科技媒体ZDNet近日发布报道称,OpenAI正式推出全新AI评估基准GDPval,旨在通过真实经济场景任务衡量前沿模型的实用价值,填补学术测试与商业应用之间的性能断层。该基准覆盖美国GDP贡献最大的九大行业,涉及44个职业的1320项具体任务,所有测试内容均由平均从业14年的领域专家设计,确保任务复杂度与真实工作场景高度契合。
针对当前AI工具市场存在的"理论性能强、实际应用弱"矛盾,OpenAI研发团队特别设计了多模态评估体系。与传统仅依赖文本输入的测试不同,GDPval要求模型完成文件处理、幻灯片制作、文档格式化等跨模态任务,更全面地检验AI在真实办公环境中的综合能力。首轮测试中,研究团队邀请行业专家对GPT-5、GPT-4o、Claude Opus 4.1和Gemini 2.5 Pro等主流模型的输出进行盲评。
测试结果呈现差异化竞争格局:Anthropic的Claude Opus 4.1凭借出色的文档美学设计(包括排版布局、视觉呈现等维度)获得综合评分第一;OpenAI自家的GPT-5则在专业领域知识准确性方面表现最优。这种分工式优势反映出现阶段AI模型在不同应用场景中的专业化发展趋势。
成本效率对比数据引发行业关注。研究显示,前沿AI模型完成GDPval指定任务的速度达到人类专家的100倍,而单次任务成本仅为人工的百分之一。不过OpenAI特别说明,该数据仅包含模型推理阶段的直接成本,未计入实际应用中必需的人工审核、多次迭代和系统集成等环节产生的隐性成本。
作为初期版本,GDPval仍存在明显局限。当前评估主要针对独立任务的一次性完成情况,难以衡量模型处理多轮修改需求、应对模糊指令或执行动态交互任务的能力。例如在需要依据客户反馈持续优化方案、处理异常数据等复杂场景中,现有评估体系尚无法有效量化模型表现。
针对这些不足,OpenAI研发团队表示后续迭代将扩大行业覆盖范围,增加需要人类判断的复杂任务类型,并计划开放部分测试数据集供学术界研究使用。这种动态优化机制反映出AI评估体系正朝着更贴近商业实战的方向演进。