滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

谷歌FACTS基准出炉：AI模型事实准确性待提升，多模态任务存短板

时间：2025-12-11 18:46:10 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

谷歌FACTS团队与数据科学平台Kagle近日联合推出一套名为FACTS的AI模型评估基准工具，旨在解决当前行业对生成式人工智能事实准确性缺乏统一衡量标准的问题。该框架特别针对法律、金融、医疗等对信息可靠性要求严苛的领域设计，通过多维度测试为模型性能提供量化参考。

评估体系将"事实性"拆解为两大核心维度：其一为上下文事实性，要求模型严格基于给定信息生成回答；其二为世界知识事实性，考察模型调用预存知识或网络检索的能力。初步测试显示，包括Gemini3Pro、GPT-5及Claude4.5Opus在内的主流模型，综合准确率均未突破70%门槛，暴露出当前技术存在的系统性缺陷。

不同于传统问答测试，FACTS基准包含四项创新测试模块：参数基准检验模型内部知识储备，搜索基准评估工具调用能力，多模态基准测试视觉信息处理，上下文基准验证逻辑连贯性。为防止数据污染，测试集采用3513个公开样本与保密数据组合的形式，其中Kagle保留的私有数据占比达30%。

在具体测试中，Gemini3Pro以68.8%的综合得分领跑群雄，其搜索模块表现尤为亮眼，获得83.8%的超高评分。但该模型在参数测试中仅取得76.4%的成绩，暴露出知识储备与检索能力的失衡。OpenAI的GPT-5以61.8%位列第三，其整体表现与第二名Gemini2.5Pro（62.1%）差距微小。

多模态测试成为所有模型的共同短板，即便是表现最佳的Gemini2.5Pro，在该模块也仅获得46.9%的准确率。测试数据显示，当前AI系统在处理无监督视觉信息提取时，仍存在显著的精度缺陷，这提示企业在部署相关应用时需建立人工复核机制。

核心发现显示：主流模型事实核查能力普遍不足70%；搜索增强型架构可显著提升回答准确性；多模态处理技术尚未达到商用标准。这些结论为AI研发者提供了明确优化方向，特别是知识检索增强生成（RAG）系统的开发，需重点强化模型与向量数据库的协同能力。

更多>同类资讯

多伦多创企“硬连线”大模型入芯片：算力破局还是逆势“刻舟”？

03-02

从标签枷锁到自我攀登：章泽天在播客中寻回真实与可能

03-02

Meta的AI版图扩张：从数据中心到消费终端，中国供应商如何抓住新机遇？

03-02

字节AI战略全景：组织人才筑基，模型应用双轮驱动领跑行业

火山引擎通过区间定价、AI节省计划等持续创新定价模式，以普惠价格实现市场领先，截至2025年12月，豆包大模型日均Tokens使用量达63万亿居国内首位，火山引擎占据国内大模型公有云服务近五成市场份额，海量调…

03-02

阿里巴巴AI业务整合升级：千问成核心品牌，C端市场数据亮眼增长

3月2日，千问大模型官方宣布，阿里巴巴正式将旗下AI业务总称及核心品牌统一整合为“千问”（英文名Qwen）。此次业务梳理后，千问大模型将作为涵盖基础模型与专业领域模型的统一名称，千问APP被确立为面向C端的旗…

03-02

湖南思洋集团控股有限公司：以全链路数智运营，赋能跨境电商破局增长

1. 专业团队与规模效应拥有500+专业人才，覆盖数智营销、跨境电商、AI大模型推广等多个领域。 1. 数据驱动的精准运营通过“思洋数智运营平台”，可实时分析全球市场动态，为企业提供从选品到交付的全流程指导…

03-02

苹果或于WWDC推“Core AI”框架助力开发者集成AI 用户体验将升级

03-02

联想MWC 2026推出AI生产力助手：机械臂可互动，时钟设备能管理任务还优化桌面

03-02

联想Legion Go Fold折叠屏概念掌机MWC 2026首秀，平板游戏模式随心切换

03-02

联想moto razr Fold折叠屏手机将至：骁龙8 Gen5加持或Q2登场

03-02

罗永浩自曝曾嫌原名土想改“书桓”，同学劝阻后作罢还反思锤子科技命名

03-02

特斯拉Cybertruck：先低价后涨价，是营销套路还是背离承诺？

03-02

联想MWC26发布Idea Tab Pro Gen 2平板：骁龙8s Gen 4加持轻薄机身配大电池

03-02

阿里通义实验室发布语音双模型：自然语言指令轻松实现声音自由设计

03-02

阿里巴巴整合AI业务统一品牌“千问” 开源模型领先C端用户增长显著

03-02

全站最新

阿里·拉里贾尼是谁？英媒：哈梅内伊之后的新一代强权者

热门内容

本栏最新

小米VGT超跑惊艳亮相！从虚拟驶向现实，中国汽车设计开启新篇章

小米Vision GT概念超跑惊艳亮相！雷军发文点赞VGT项目团队出色表现

小米Vision GT概念车惊艳亮相！进军顶豪阵营，北京车展国内首秀引期待

小米首款概念超跑明日亮相MWC，胡峥楠：空气动力学引领汽车构造新变革

小米Vision GT概念车全球首秀！亮相MWC引关注，北京车展国内再展风采

小米SU7 Pro实力验证！提车一年多行驶30万公里，电池健康度仍达94.5%

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.