滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

AI开口第一个词就藏玄机？天普大学新研究揭秘判断AI“幻觉”新招

时间：2026-05-13 02:16:33 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

美国天普大学计算机与信息科学系的研究团队近日提出一项创新方法，通过分析大型语言模型生成答案时的首个词汇置信度，可高效判断其回答的真实性。该研究以预印本形式发布，论文编号为arXiv:2605.05166，为检测AI生成内容中的“幻觉”现象提供了新思路。

所谓AI幻觉，指模型在缺乏准确信息时仍能生成看似合理却错误的回答。这种现象的危害性在于其表述的流畅性与确定性，用户难以从表面判断对错。传统检测方法如“自我一致性检测”需重复提问十次并对比答案，虽有一定效果但计算成本高昂。新研究提出的“首个词置信度”指标（φfirst），仅需分析模型生成首个词汇时的概率分布，即可评估其可信度，计算效率提升超十倍。

研究团队将这一指标与五种现有方法进行对比实验，涵盖三个主流开源模型和两个知识问答数据集。结果显示，φfirst的平均AUROC得分达0.820，优于语义自我一致性的0.793及其他方法。尤其在短答案场景中，其优势更为显著，PopQA数据集上的平均得分达0.875，较对手高出0.036。统计检验证实，这一优势在多数组合中具有稳健性，并非偶然结果。

该指标的核心原理在于量化模型生成首个词汇时的概率集中程度。当模型对答案高度确定时，首个词汇的概率权重会显著集中；若存在不确定性，概率则分散于多个候选词。通过计算归一化熵并取反，φfirst值越高代表模型越有把握。这一过程仅需单次生成过程，无需额外模型或重复提问。

实验还验证了φfirst与语义自我一致性在信息捕获上的重叠性。合并使用两者仅能提升AUROC约0.021，说明新指标已涵盖大部分关键信息。针对答案长度的潜在干扰，研究通过偏相关分析排除共同因素影响后发现，在短答案场景中φfirst与答案长度的关联几乎消失，验证了其独立性。

尽管该方法在英语封闭式事实问答中表现优异，但研究团队明确指出其局限性。对于需要长文本推理或依赖外部文档的场景，首个词汇的置信度可能无法全面反映模型状态。该方法需访问模型内部概率分布，对仅提供文本输出的商业API不适用。研究人员建议，未来检测AI幻觉的新方法应将φfirst作为基准线，只有显著超越其性能时，额外成本才具有合理性。

这一发现为降低AI应用风险提供了低成本解决方案。在医疗、金融等关键领域，快速识别模型不确定性可避免错误信息传播。研究团队已公开实验代码与数据集，鼓励学术界进一步探索单次解码置信度的应用潜力。对普通用户而言，理解AI回答时的微妙迟疑，或许将成为判断信息真伪的新技能。

更多>同类资讯

2026年5月12日：千帆极轨09组卫星搭乘长征六号改火箭成功入轨

05-13

卧床实验招募志愿者：模拟太空失重状态，完成挑战可获补助并助力航天医学

05-13

阜阳夜空现“不明飞行物”？原来是长征六号甲火箭升空留下的火箭云

05-13

复旦论道内容出海：网络大V、学界教授共探跨文化传播新路径

05-13

把握大脑四大黄金转折期：科学护脑，让思维活力随岁月持续绽放

05-13

光伏厂超纯水设备总出问题？四大根源解析，助你精准解决稳生产

05-13

AI算力飙升芯片功耗激增：川润股份全链条液冷技术引领绿色散热新方向

05-13

新疆保华润天航空：氢能“心脏”助力工业无人机续航跃升开启高效作业新篇

05-13

港大研发SS-H₂不锈钢：打破传统定律，为绿氢产业开启低成本新篇章

05-13

全汉发布2000W旗舰电源，为高性能AI工作站与双显卡台式机提供强劲动力

05-13

世嘉调整战略方向：收缩服务型游戏，集中资源深耕核心IP领域

05-13

2026年5月12日我国于太原卫星发射中心成功发射千帆极轨09组卫星

05-13

美光科技跌幅进一步扩大至10%

05-13

无忧传媒与王暖暖解约后，创始人凌晨发朋友圈暗指“无情无义不能交往”

05-12

GitLab裁员布局AI：精简架构重组团队，借代理式AI提升效率

05-12

点击查看更多 +

全站最新

李想谈AI芯片变革：理想自研马赫M100亮相，四年前选择获强悍验证

比亚迪第三代元PLUS 5月21日上市续航630公里配二代刀片电池与智驾系统

中央网信办推进短视频规范标注 6类必选标签成发布“硬门槛”

微信状态内测“访客记录”引网友热议隐私边界与社交自由成焦点

智启教育新程：数智技术赋能全球教育多元创新与均衡发展

广汽丰田铂智3X：14个月销量破10万蝉联8月销冠香港市场也表现亮眼

热门内容

本栏最新

2026年新手必看！实习期驾照扣分规则大揭秘，安全驾驶从细节做起

红旗天工S-concept设计首秀：酷飒外观与梦幻内饰，开启未来出行新想象

张雪机车两款车型存隐患：磁电机线束压板或断裂免费升级点检还延保

张雪机车召回部分500RR与500F 免费换压板点检还延保发动机质保

布加迪Tourbillon瑞典冰雪测试，1775马力超跑挑战极寒调校漂移动态

月薪3万“大厂高管”两周走人：小公司要的是能“打仗”的合伙人

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.