近日,谷歌的 FACTS 团队与数据科学单位 Kaggle 联合发布了 FACTS 基准套件,旨在填补当前 AI 模型评估中对事实准确性缺乏标准化的空白。该基准套件提供了一种全面的评估框架,特别适用于法律、金融和医疗等行业,其中准确性至关重要。
图源备注:图片由AI生成,图片授权服务商Midjourney
FACTS 基准将 “事实性” 定义为两个独特的操作场景:一是 “上下文事实性”,即依据提供的数据生成准确响应;二是 “世界知识事实性”,即从记忆或网络中检索信息。初步结果显示,包括 Gemini3Pro、GPT-5和 Claude4.5Opus 在内的所有模型,在这一基准测试中均未能突破70% 的准确率。
FACTS 基准不仅限于简单的问答题,而是由四个不同的测试组成,模拟开发人员在生产中遇到的真实失败模式。这些测试包括:参数基准(内部知识)、搜索基准(工具使用)、多模态基准(视觉)和上下文基准。谷歌已向公众发布了3513个示例,而 Kaggle 则保留了一部分私有数据,以防开发人员在测试数据上进行训练。
根据初步测试结果,Gemini3Pro 以68.8% 的综合 FACTS 得分领先,其次是 Gemini2.5Pro(62.1%)和 OpenAI 的 GPT-5(61.8%)。特别是在 “搜索” 基准测试中,Gemini3Pro 的得分高达83.8%,而在 “参数” 测试中仅为76.4%。这表明,企业在构建知识检索增强生成(RAG)系统时,应将模型与搜索工具或向量数据库结合使用,以提高准确性。
然而,值得关注的是,在多模态任务中的表现普遍较低,即使是领先的 Gemini2.5Pro,在该类别中也仅得到了46.9% 的准确率。这一数据表明,当前的多模态 AI 在无人监督的数据提取上尚未成熟,企业在产品开发中需谨慎对待。
划重点:










