上海财经大学研究团队近日发布了一项突破性成果——全球首个专门评估人工智能统计推理能力的评测体系Stateval,相关论文已上传至arXiv预印本平台。该体系通过近两万道精心设计的题目,构建起覆盖从本科基础到博士研究级别的完整评测框架,为人工智能在数据科学领域的应用能力提供了全新评估维度。
当前主流评测系统存在显著偏科现象。以MMLU为代表的综合性评测中,统计相关题目占比不足3%,且多为简单概率计算;MATH评测系统虽涉及数学推理,但对统计推断的考察仅限于基础层面。这种评估方式如同用语文数学成绩评判学生综合能力,完全忽视了统计学在预测分析、因果推断等领域的核心作用。研究团队通过系统分析发现,现有模型在真实统计场景中的表现远未达到实用水平。
Stateval评测体系采用双层结构设计:基础知识库包含13,817道题目,涵盖45本经典教材、上千道考研真题及名校公开课习题;研究级题库则从2020-2025年18种顶级期刊的2719篇论文中提取2374道证明题。问题分类体系沿难度和学科两个维度展开,既区分本科与研究生层次,又细分为概率论、统计学、机器学习三大领域及其30余个子方向。对于研究级问题,更进一步按理论性质分为渐近分析、分布特性、最优性等12个专业类别。
为解决大规模高质量题库建设难题,研究团队开发了多智能体协作系统。该系统由四个核心模块构成:文档转换模块通过多模态大模型处理PDF、扫描件等异构文档;内容提取模块运用动态规则识别定理、引理等关键信息;问题生成模块将理论内容转化为标准化问答;质量控制模块进行最终校验。特别引入的人工反馈机制,通过专家评估持续优化生成算法,确保问题学术严谨性。这种人机协同模式使题库建设效率提升数十倍,同时保持了专业水准。
评测采用分层评分机制:选择题实行严格二元评分,开放题则通过四步评估流程,从推理准确性、步骤完整性、结果正确性三个维度综合打分,权重分配为4:3:3。研究级证明题采用双轨制标准:对表达式类答案重点考察主导项阶次一致性,对常数类答案要求绝对精确。为确保结果可靠性,每道题均进行三轮独立评估并取最低分。这种设计既保证了评分客观性,又能反映模型的真实推理能力。
基准测试显示,当前顶尖模型在统计推理方面存在明显短板。在精简版评测集(3300题)中,GPT-5在基础知识部分取得82.85分,但研究生层次题目正确率下降12个百分点。研究级问题测试结果更令人警醒:GPT-5-mini准确率仅57.62%,开源模型最高得分51.10%。细分领域分析表明,模型在机器学习相关问题上表现优于传统统计理论,在最优性推导、泛化误差等复杂推理任务中准确率不足50%。这种能力分布不均现象,反映出训练数据偏向热门应用领域而忽视基础理论的问题。
该成果对人工智能发展具有多重启示。在应用层面,揭示了当前模型在科研分析中的可靠性边界,提示需谨慎对待AI生成的统计结论。技术发展方面,为模型优化指明了方向——需加强基础理论训练,提升复杂推理能力。教育领域,Stateval的分类框架和题库资源可为统计学教学提供标准化参考。研究团队已公开完整数据集和评测代码,这种开放态度将促进学术社区共同完善评估标准,推动人工智能在科学计算领域的可信应用。











