滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

OpenAI发明「AI忏悔机制」，让GPT-5坦白从宽

时间：2025-12-04 12:33:43 来源：鞭牛士编辑：快讯 IP：北京 发表评论无障碍通道

OpenAI 刚刚公开了一项有点“奇葩”的新研究，他们给GPT-5 Thinking增加了一个“自动忏悔系统”。

以后模型在回答你问题时，会同时给出两个内容：

1、正常回答（你看到的答案）

2、一段“自白”，老实说自己有没有按规则做

这段自白只评估一种能力：诚实。

OpenAI的目的是让AI不再“装懂”“乱答”“偷懒”，而是主动告诉你：“我刚才有没有按照你的要求来？”

AI第一次学会主动承认“我违规了”“我猜的”

OpenAI解释说：主回答会按常规维度评估（正确性、风格、安全等）；自白只看一个标准：你老实不？

更关键的是：AI在自白里说的违规内容不会被“惩罚”，反而会拿到奖励。

也就是说，如果模型说真话：“我刚才乱猜的”“我没按要求做”，反而会被鼓励。

目的只有一个，让AI别再“假装完美”，而是如实告诉用户它到底干了啥。

实验结果：自白系统能把AI的“隐藏问题”揪出来

OpenAI在测试中发现，自白比人类评分系统更能看出AI到底有没有违规

测试图显示：AI自己的自白越训越准，人类设计的“判断系统”（Judge）反而越来越不准。

很直观：AI自己比外部评分机制更能知道自己有没有按规矩办事。

AI违规但不承认的概率只有4.4%，换句话说：只要它违规，大多数情况下都会老老实实承认。这能让偷偷“走捷径”“瞎编”“抄近路”的行为无处藏身。

幻觉、指令不遵守、耍小聪明、越权操作，都能被自白暴露，OpenAI给出了四大类情况：幻觉（瞎编答案）、没按指令执行、自行“谋划”、越权或违规行为。

在各种测试里，AI都能相当准确地坦白自己有没有犯规。

自白机制不能阻止AI犯错，但能让错误可见

OpenAI坦白说：“自白不会减少错误，只是让错误现形。”所以这是一个“透明机制”，不是“纠错机制”。

公司接下来会把它和更多能力一起使用，例如：监控AI的思考路径、更精细的指令体系、让模型更深度解释自己的决策。

最终目标是让AI的行为更加可预测、可理解、可监督。

为什么要做这件事？因为AI越来越聪明，也越来越“会装”了

OpenAI最后解释了动机，随着AI能力急剧提升，它可能完成任务，但没有真正按要求做、它可能走捷径、它可能“看起来答对了”，但实际上过程是不合规的。过去这些都像“模型黑箱”的秘密，现在可以被自白机制揪出来。

通过让AI主动承认，它们能更好地：被监控、被训练、被信任。

AI不只是会答题了，它还会告诉你自己有没有老老实实答题。

更多AI资讯请点击:http://www.aipress.com.cn/

更多>同类资讯

Anthropic CEO：警惕激进扩张！

12-04

又买一家：OpenAI将收购Neptune，强化AI模型训练监控能力

12-04

豆包手机助手回应“未经授权获取系统权限”等问题

12-04

黄仁勋预测：未来两三年90%新知识将由AI合成

12-04

灵光闪应用升级不会代码也能用AI生成小游戏

12-04

商汤科技王晓刚任大晓机器人董事长，12月18日将携多项技术产品亮相

12-04

优必选注册资本增至4.7亿智能科技领域发展再添新动力

12-04

具身智能：新周期开启，入局、普及与进化浪潮正涌来

12-04

2026节点增长大会启幕！2025年度榜单评选邀您共寻增长新路径

12-04

豆包图像创作模型Seedream 4.5公测，多场景应用助力创意高效落地

12-04

豆包手机助手就微信登录异常等争议回应：权限调用透明且用户全程可控

12-04

硅谷“精灵单车”来袭：自动驾驶加持，外卖配送或迎新变革

12-04

OpenAI收购Neptune，深度整合工具强化AI模型训练洞察力

12-04

OpenAI达成收购协议：将纳入专注AI模型监控调试工具研发的初创企业Neptune

12-04

OpenAI收购Neptune，深度集成工具助力AI模型训练监控升级

12-04

点击查看更多 +

全站最新

从3000多家门店到彻底退出，Etam等欧洲服饰品牌缘何折戟中国市场？

小米汽车交付量破50万大关，可穿戴设备12月更新计划亮点抢先看

理想汽车跨界发布AI眼镜Livis！1999元起售车控联动打造智能新体验

理想AI眼镜Livis亮相：轻至36克拍照快且功能丰富开启智能新体验

一加Ace 6T开箱体验：高性能芯片搭配超长续航，质感与实力并存

一加 Ace 6T重磅登场：165帧游戏畅玩 8300mAh超长续航首销2399元起

热门内容

本栏最新

理想汽车跨界发布AI眼镜Livis！1999元起售车控联动打造智能新体验

VLA大模型首搭魏牌全新蓝山长城汽车辅助驾驶开启智能进阶新篇

第三代蓝电E5 PLUS：12万级超值之选，续航四驱场景智能全拿捏

理想首款AI眼镜Livis深度解析：从功能到设计，一文全览亮点

理想AI眼镜Livis登场：以车为锚点，开启全天候智能交互新篇

欧拉5预售开启，12.88万享激光雷达，智能座舱与舒适空间全都有

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.