ITBear旗下自媒体矩阵:

OpenAI研究人员:破解大语言模型“幻觉”难题,关键在调整评估标准

   时间:2025-09-06 21:00:03 来源:IT之家编辑:快讯团队 IP:北京 发表评论无障碍通道
 

据《商业内幕》报道,OpenAI研究人员近日宣布,他们已找到破解大语言模型核心缺陷——"幻觉"问题的关键路径。这一发现直指当前主流模型普遍存在的信息输出失真问题,即模型将虚构内容当作真实信息呈现的弊端。

研究团队在最新论文中指出,现有训练机制导致模型倾向于"假装知情"。当面对不确定问题时,系统被优化为必须给出答案,而非承认知识盲区。这种设计源于评估体系对"完整回答"的过度奖励,使得模型在信息不足时仍会强行输出内容。

实验数据显示,不同模型在处理不确定性时存在显著差异。以Claude模型为例,其设计更注重回答准确性,当信息不足时倾向于拒绝作答。但研究人员同时指出,这种保守策略导致约30%的常规问题被搁置,可能影响用户体验。

论文核心观点认为,当前评估标准存在根本性缺陷。现有测试体系类似标准化考试,要求模型对每个问题给出明确答案。这种机制迫使系统将复杂现实简化为非此即彼的判断,而忽略了真实世界中普遍存在的模糊地带。

"人类通过实践学会区分确定与不确定的边界,但模型评估仍停留在应试阶段。"研究团队负责人表示,"当测试惩罚'我不知道'的回答时,系统自然会选择冒险猜测来获取分数。"

针对这一困境,研究人员提出评估体系改革方案。核心建议包括:建立不确定性量化评分机制,对谨慎回答给予正向激励;修改准确率计算方式,降低猜测行为的收益;引入多维度评估标准,替代单一正确率指标。

OpenAI在配套博文中强调,现有排行榜机制正在加剧问题。当模型发现侥幸猜中答案能获得排名提升时,训练过程就会强化这种投机行为。改革评估标准不仅能提升输出质量,还将推动模型向更接近人类认知的模式进化。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version