谷歌DeepMind近日推出了一项名为FACTS的基准测试,旨在评估人工智能系统在事实准确性方面的表现。这项测试通过四个关键维度对AI模型进行全面考察:能否依靠自身知识正确回答事实性问题、是否具备高效利用网络搜索的能力、在长文本中精准引用信息的水平,以及对图像内容的理解程度。测试结果显示,谷歌自家的Gemini 3 Pro模型以69%的准确率领先,其他主流AI模型的表现则存在明显差距。
尽管AI在生成速度和语言流畅性上展现出显著优势,但事实可靠性仍是其短板。特别是在需要专业领域知识、复杂逻辑推理或严格依赖原始资料的场景中,AI的表现远未达到人类标准。这一缺陷在高风险行业尤为突出,金融、医疗和法律等领域对信息准确性的要求极高,即便是微小的事实错误也可能引发严重后果。
以法律行业为例,某律师事务所近期发生的案例凸显了AI应用的潜在风险。该机构员工使用ChatGPT起草法律文件时,系统生成的文本中包含大量虚构的判例引用。这种严重失误直接导致该员工被解雇,也暴露出当前AI技术在专业场景中的局限性。类似情况并非孤例,如何确保AI生成内容的真实性已成为行业亟待解决的问题。
谷歌方面表示,通过FACTS测试可以精准定位AI模型的错误类型和发生场景,这将为技术改进提供重要依据。不过从现有数据看,AI系统仍有约三分之一的概率会输出错误信息。这意味着在关键决策领域,人类专家的审核和干预仍不可或缺。如何平衡效率与准确性,将成为AI技术落地应用的核心挑战。





