谷歌的 FACTS (Factual Consistency and Truthfulness Score) 团队与数据科学平台 Kaggle 于今日联合发布了 FACTS 基准测试套件。这是一个旨在衡量生成式人工智能模型在企业任务中事实性 (Factuality) 和真实性的综合评估框架。
此举弥补了现有基准测试的重大缺陷——即只关注问题解决能力,而非输出信息与真实世界数据的客观一致性,特别是当信息嵌入在图像或图表中时。对于法律、金融、医疗等对准确性要求极高的行业而言,FACTS 建立了一个关键的标准化衡量体系。
核心发现:AI 距离“完美”仍有距离FACTS 的初步结果向业界发出了明确信号:尽管模型越来越智能,但它们远非完美。包括 Gemini3Pro、GPT-5和 Claude4.5Opus 在内的所有参测模型,在所有问题上的综合准确率均未能超过 70%。
正如 FACTS 团队的新闻稿所指出的,这意味着未来仍有巨大的提升空间。对于技术领导者而言,目前的行业信息是:“信任但要核实” 的时代远未结束。
解构 FACTS:企业级故障模式的四大测试FACTS 测试套件超越了简单的问答,由四个旨在模拟真实生产环境中的故障模式的子基准测试构成:
参数基准测试 (内部知识): 衡量模型仅依赖训练数据(内部记忆)回答问题的准确性。
搜索基准测试 (工具使用): 评估模型使用网络搜索工具检索和综合实时信息的能力(RAG 能力)。
多模态基准测试 (视觉): 衡量模型准确解释图表、示意图和图像,同时避免“幻觉”的能力。
Grounding Benchmark v2(上下文): 评估模型严格遵循所提供的源文本(上下文)的能力。
为了防止模型“污染”,谷歌已向公众发布了3,513个示例,而 Kaggle 则负责维护防止训练的私有数据集。
排行榜:Gemini3Pro 领跑,但“多模态”成最大短板初始排行榜显示,Gemini3Pro 以68.8% 的综合 FACTS 得分领先,但细分数据显示了模型在不同任务上的真实差距:
模型FACTS评分(平均值)搜索(RAG 能力)多模态(视觉)Gemini3Pro68.8%83.8%46.1%Gemini2.5Pro62.1%63.9%46.9%GPT-561.8%77.7%44.1%Grok453.6%75.3%25.7%Claude4.5Opus51.3%73.2%39.2%对技术栈的启示:RAG 系统的必要性对构建 RAG(检索增强生成)系统的开发人员而言,数据验证了当前的企业架构标准:不要依赖模型的内部存储器来获取关键信息。
数据显示,模型的 远远优于其能将准确率提升到可接受生产水平的方法。
多模态警告:低于50% 的准确率对于产品经理而言,最令人担忧的是多模态任务的低分。该项指标普遍偏低,即使是表现最好的 Gemini2.5Pro,准确率也仅为46.9%。由于任务涉及阅读图表、解读示意图,这表明多模态人工智能尚未准备好进行无监督数据提取。
如果产品路线图依赖 AI 自动从发票或财务图表中抓取数据而无需人工审核,那么系统将很可能引入高达三分之一的严重错误率。
结论:FACTS 将成采购新标杆FACTS 基准测试很可能成为企业级 AI 模型采购领域的新标准。技术负责人应根据用例匹配的具体子基准测试进行评估:
客户支持机器人: 关注 合规性评分(Gemini2.5Pro 在此项得分74.2%,高于 Gemini3Pro 的69.0%)。
研究助手: 优先考虑 搜索评分。
图像分析工具: 务必极其谨慎,并假定原始模型在约三分之一的情况下可能会出错。










