随着人工智能技术在科研领域的渗透,如何科学评估AI研究助手的能力成为学界关注的核心问题。上海人工智能实验室联合清华大学、香港科技大学(广州)及牛津大学等机构,通过创新性的学术讲座场景评测方法,构建了名为DeepResearch Arena的评测体系,为AI研究能力评估提供了全新范式。
传统评测方式存在明显缺陷:基于文献的问题可能被AI提前"记忆",人工设计题目则面临覆盖面不足的困境。研究团队发现,学术讲座中自然产生的开放性问题更能反映真实科研过程。这类场景中,研究者会实时提出未解决的疑问、探讨跨学科可能性,这种动态的思维碰撞过程未被纳入现有AI训练数据,有效避免了数据泄露风险。
核心突破在于MAHTG(多智能体分层任务生成)系统的开发。该系统通过四重筛选标准——新颖性、可探索性、挑战性和可验证性,从讲座转录文本中精准提取研究灵感。例如,当教授讨论算法处理大规模数据的瓶颈时,系统会将其归类为"局限性"类型,并生成改进算法的具体任务。这种分类机制确保生成的任务覆盖文献综述、方法设计、实验评估等完整研究链条。
研究团队收集了12个学科领域的200余场讲座录音,通过MAHTG系统生成超万个研究任务,构建了迄今最大规模的跨学科评测数据集。在任务生成环节,系统采用Elo评分机制进行质量排序:初始设定1200分基础值,通过原创性、清晰度等指标的多轮比对,最终筛选出最高质量的评测任务。
评估体系创新性地采用双维度框架:关键点对齐评估(KAE)通过比对AI引用资料与回答内容,计算支持率、冲突率和遗漏率;自适应清单评估(ACE)则针对开放性任务,动态生成包含方法论严谨性、技术准确性等维度的评价清单。这种设计既保证了客观性,又兼顾了研究任务的创造性特征。
实验结果显示,主流AI模型在真实研究场景中表现差异显著。O4-mini深度研究版在主观评估中获4.03分,展现较强综合能力;GPT-4.1虽事实精确性突出,但连贯性不足;Gemini-2.5-flash版本信息覆盖全面,却存在效率权衡问题。特别值得注意的是,所有模型在假设生成、跨学科方法设计等高阶任务中均暴露明显短板。
为确保评测公正性,研究团队设计了严格的数据泄露检测:将任务切割为提示和待续写部分,通过字符串相似度、TF-IDF余弦相似度及词汇重叠率的三重验证,确认所有模型未出现记忆化复现。人工评估对比实验进一步证明,自动评估系统与专家判断的Spearman相关系数达0.84,展现出高度一致性。
该研究揭示,当前AI在事实检索层面已具相当能力,但在创造性思维、跨领域整合等核心科研能力上仍有提升空间。例如Grok-4模型在英语任务中支持率达83.3%,中文任务却骤降至62.1%,凸显多语言泛化能力的局限。这种差异化的表现分析,为AI研究助手的优化方向提供了精准指引。
论文提出的评测方法已通过arXiv平台公开(编号2509.01396v1),其创新价值不仅在于技术实现,更在于构建了接近真实科研环境的评估框架。这种从"静态试题"到"动态研讨"的转变,或将推动AI从辅助工具向真正研究伙伴的演进。对于科研工作者而言,这意味着未来可能获得更智能的协作伙伴;对于AI开发者,则明确了算法改进的重点方向。