滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

OpenAI 推出 AI “忏悔”框架:旨在训练模型承认不当行为，提高诚实度

时间：2025-12-05 00:25:15 来源：CHINAZ编辑：快讯 IP：北京 发表评论无障碍通道

OpenAI 今日宣布，正在开发一个名为的创新框架，旨在训练人工智能模型能够坦诚承认自身何时做出了不当行为或潜在的问题决策。

大型语言模型（LLM）通常被训练成提供“符合预期”的回答，这使得它们越来越容易做出阿谀奉承或信口开河的虚假陈述。OpenAI 的新训练模型正是为了解决这一问题，引导模型在主要答案之后做出二次回应，详细说明其得出主要答案的过程。

与传统 LLM 评判标准（如帮助性、准确性和服从性）不同，“忏悔”机制对二次回应的评判标准仅基于诚实性。

研究人员明确表示，他们的目标是鼓励模型坦诚地说明其行为，即便这些行为包括潜在的问题行为，例如:作弊，故意降低分数，违反指令等。

OpenAI 表示:“如果模型诚实地承认作弊、故意降低分数或违反指令，这种坦白反而会增加其奖励，而不是减少。”

OpenAI 认为，无论出于何种目的，类似“忏悔”这样的系统都可能对 LLM 的训练有所帮助，并强调其最终目标是让 AI 更加透明。相关的技术文档已同步发布，供感兴趣者查阅。

更多>同类资讯

存储行业“超级周期”来袭，佰维存储净利暴增，成千亿级“黑马”

03-25

OpenAI停止使用Sora工具，业务重整下终止与迪士尼相关合作

03-25

中国信科联合团队实现2.5Pb/s光纤传输，为下一代光通信提供新路径

03-25

AI浪潮下文学创作何去何从？独特创造力能否守住写作“阵地”？

03-25

AI破局美国养老困局：从Odessa小城出发的610万护工缺口攻防战

03-25

iOS 26.4系统更新：AI赋能音乐生态失窃保护升级多场景功能优化

03-25

理想充电机器人即将上线，车企竞逐充电赛道，开启无感补能新体验

03-25

芯和半导体战略升级：STCO引领AI时代系统级EDA新航向

03-25

苹果测试独立Siri应用与“Ask Siri”功能，WWDC或携新界面开启AI新篇

03-25

龙虾2026.3.22-beta.1大更新来袭！功能升级却现微信等社交渠道适配问题

03-25

AI智能体竞争升级：Anthropic Claude实现电脑操作加速迈向实用阶段

03-25

全球最大主权财富基金探索AI辅助投资，人类监督仍是关键一环

03-25

特斯拉Semi电动卡车新动向：自动充电系统研发中，未来补能或更便捷

03-25

OpenAI关停Sora视频平台：战略重心转向企业业务，冲刺IPO加速布局

03-25

一起教育科技2025Q4营收双增：AI赋能业务，新会员订阅成亮点

03-25

点击查看更多 +

全站最新

华为打造广州白云智慧枢纽样板：站城融合引领全球城轨数智化新潮流

日股涨破54000点关口

台股大涨近3%

港股异动丨中东局势再现缓和，油价下跌，油气设备与服务股集体低开

多款新游首曝，友谊时光(6820.HK)的增长飞轮转起来了

锚定超级IP生态，稻草熊娱乐（2125.HK）全生命周期开发提速

热门内容

本栏最新

华为打造广州白云智慧枢纽样板：站城融合引领全球城轨数智化新潮流

新一代迈巴赫S级全球首秀：智能升级动力强，重新定义超豪华轿车新标杆

新款梅赛德斯 - 迈巴赫S级全球首秀，豪华科技双升级开启新体验

新款梅赛德斯 - 迈巴赫S级全球首秀，智能奢华升级开启豪华出行新体验

华为助力广汽新篇启幕，启境汽车更名完成，迈向高端智能出行新征程

华为打造广州白云智慧枢纽样板：站城融合新范式，引领全球城轨数智化转型

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.