OpenAI最新发布的论文《语言模型为何会产生幻觉?》引发了学界与业界的广泛关注。研究指出,当前语言模型在面对不确定问题时倾向于“冒险猜测”,而非坦诚承认知识盲区,这一现象源于训练与评估机制对“准确率”的过度追求。
论文重新定义了“幻觉”的概念:当模型生成看似合理但实际错误的答案时,即构成幻觉。例如,用户询问某学者博士论文题目,模型可能自信给出三个错误答案;或回答人物生日时提供三个完全不同的错误日期。这类“一本正经的胡说八道”不仅出现在复杂问题中,简单事实查询同样可能触发。
研究揭示,现有评估体系以“准确率”为唯一指标,迫使模型在不确定时选择猜测而非放弃作答。这种机制类似于考试中“蒙对得分、空题零分”的规则,导致模型为追求高分而忽视真实性。OpenAI以GPT-5为例指出,该模型因“不够自信”在传统榜单中表现欠佳,但其幻觉发生率显著低于其他模型。
论文提出,需重构评估机制:对错误回答的惩罚应高于“放弃作答”,同时允许模型以“不确定”等表述获得部分分数。这一调整需扩展至所有基于准确率的评估场景,而非局限于特定测试。
针对研究动机,网友提出质疑:是否为提升GPT-5表现而刻意调整评估标准?对此,OpenAI强调,问题核心在于语言模型预训练阶段缺乏“真/假”标签,导致模型仅能学习语言分布规律,而难以掌握低频、随机的事实性知识。例如,生日等具体信息无法通过预测下一个词完全获取,幻觉由此产生。
讨论延伸至三个关键方向:幻觉的普遍性、成因及应对策略。部分网友认为,所有模型输出本质均为“概率性预测”,仅部分符合事实,因此“幻觉”术语可能失去意义;另一些人则指出,模型规模与训练方式确实影响幻觉发生率,不能一概而论。
关于模型“投机策略”的分析显示,当前机制鼓励模型在不确定时猜测,而非承认无知。例如,面对未知问题,随机选择可能碰巧答对,而放弃作答则必然失分。这种设计导致模型为追求短期得分而牺牲真实性。
语言局限性成为另一争议焦点。有观点认为,语言与真理并非等同,要求模型完全消除“不真实”输出本身不合理;计算机科学中“一致性”常被用作判断标准,但确定陈述真伪仍属机器智能的未解难题。知识具有流动性,固定数据集训练的模型难以适应动态变化的事实。
统计模型的本质亦被重新审视。批评者指出,用“幻觉”描述模型错误带有拟人化倾向,模型本质是预测下一个词的概率分布,出错属正常现象。然而,反对者认为,文本编码了数学、代码等结构化知识,将其输出简单视为“单词预测”忽略了知识表示的复杂性。
实际应用层面,用户提出矛盾需求:创作场景需要模型“发散思维”,但过度追求真实性可能限制创造力;另一方面,若模型为规避惩罚而频繁拒绝回答,又可能降低实用性。例如,用户更倾向获得一个看似合理的答案,而非直接听到“我不知道”。