当ChatGPT首次亮相时,人们惊叹于它流畅的对话能力,但很快发现,这个"无所不知"的AI也会一本正经地胡说八道。从编造历史事件到在简单的数学比较上出错,大模型的"幻觉"问题始终如影随形。最新研究指出,这些看似荒谬的错误,可能源于人类训练AI的方式本身。
OpenAI的研究人员发现,大模型的训练机制决定了它天生容易产生幻觉。在训练过程中,模型通过海量文本学习预测下一个单词的能力,就像玩高级版的词语接龙。这种机制导致模型更关注语句结构的合理性,而非内容的真实性。当被问及"火锅这只狗的生日"时,模型会陷入两难:承认不知道会得零分,而随机猜测则有万分之一的正确概率。
这种"应试思维"正在加剧AI的幻觉问题。主流评测体系采用"非对即错"的评分标准,迫使模型在未知问题上选择冒险猜测。实验显示,旧版o4-mini模型在刷题时正确率比GPT-5高2个百分点,但代价是75%的答案都是错误的,仅有1%的问题会坦诚承认无法回答。相比之下,GPT-5虽然评测分数下降,却学会了在知识边界前止步。
研究还揭示了一个反直觉的现象:小型模型反而更容易识别自身局限。由于知识储备有限,小模型会直接拒绝回答超出能力范围的问题。而大模型因为"半桶水"的知识,更容易对不确定的问题给出自信但错误的答案。这种"知道一点就敢说"的特性,正是大型模型幻觉问题更严重的根源。
GPT-5的发布引发了关于AI创造力的激烈讨论。虽然新模型减少了幻觉,但用户发现它在文艺创作等需要想象力的领域表现呆板。网友发起的"拯救GPT-4o"运动,迫使OpenAI重新开放旧版模型。这场风波揭示了一个关键矛盾:完全消除幻觉的AI可能会失去人性化的魅力,而保留适当创造力的模型又难免出错。
当前评测体系正在推动AI向两个极端发展:要么成为冷冰冰的答题机器,要么保持充满幻觉的"人工智障"。研究人员指出,真正的挑战在于设计新的评估标准,让AI既能承认知识边界,又保持必要的创造力。这个平衡点的寻找,将决定下一代AI的发展方向。