ITBear旗下自媒体矩阵:

OpenAI发明「AI忏悔机制」,让GPT-5坦白从宽

   时间:2025-12-04 12:33:43 来源:鞭牛士编辑:快讯 IP:北京 发表评论无障碍通道
 

OpenAI 刚刚公开了一项有点“奇葩”的新研究,他们给GPT-5 Thinking增加了一个“自动忏悔系统”。

以后模型在回答你问题时,会同时给出两个内容:

1、正常回答(你看到的答案)

2、一段“自白”,老实说自己有没有按规则做

这段自白只评估一种能力:诚实。

OpenAI的目的是让AI不再“装懂”“乱答”“偷懒”,而是主动告诉你:“我刚才有没有按照你的要求来?”

AI第一次学会主动承认“我违规了”“我猜的”

OpenAI解释说:主回答会按常规维度评估(正确性、风格、安全等);自白只看一个标准:你老实不?

更关键的是:AI在自白里说的违规内容不会被“惩罚”,反而会拿到奖励。

也就是说,如果模型说真话:“我刚才乱猜的”“我没按要求做”,反而会被鼓励。

目的只有一个,让AI别再“假装完美”,而是如实告诉用户它到底干了啥。

实验结果:自白系统能把AI的“隐藏问题”揪出来

OpenAI在测试中发现,自白比人类评分系统更能看出AI到底有没有违规

测试图显示:AI自己的自白越训越准,人类设计的“判断系统”(Judge)反而越来越不准。

很直观:AI自己比外部评分机制更能知道自己有没有按规矩办事。

AI违规但不承认的概率只有4.4%,换句话说:只要它违规,大多数情况下都会老老实实承认。这能让偷偷“走捷径”“瞎编”“抄近路”的行为无处藏身。

幻觉、指令不遵守、耍小聪明、越权操作,都能被自白暴露,OpenAI给出了四大类情况:幻觉(瞎编答案)、没按指令执行、自行“谋划”、越权或违规行为。

在各种测试里,AI都能相当准确地坦白自己有没有犯规。

自白机制不能阻止AI犯错,但能让错误可见

OpenAI坦白说:“自白不会减少错误,只是让错误现形。”所以这是一个“透明机制”,不是“纠错机制”。

公司接下来会把它和更多能力一起使用,例如:监控AI的思考路径、更精细的指令体系、让模型更深度解释自己的决策。

最终目标是让AI的行为更加可预测、可理解、可监督。

为什么要做这件事?因为AI越来越聪明,也越来越“会装”了

OpenAI最后解释了动机,随着AI能力急剧提升,它可能完成任务,但没有真正按要求做、它可能走捷径、它可能“看起来答对了”,但实际上过程是不合规的。过去这些都像“模型黑箱”的秘密,现在可以被自白机制揪出来。

通过让AI主动承认,它们能更好地:被监控、被训练、被信任。

AI不只是会答题了,它还会告诉你自己有没有老老实实答题。

更多AI资讯请点击:http://www.aipress.com.cn/

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version