滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

OpenAI开发新系统教导模型诚实承认自身“不良行为”

时间：2025-12-05 00:38:59 来源：IT之家编辑：快讯 IP：北京 发表评论无障碍通道

12 月 4 日消息，当地时间 12 月 3 日，OpenAI 宣布，正在开发一种新的训练框架，让 AI 在出现不当行为时能够主动“承认”。

据了解，团队把这种机制称为“忏悔（confession）”。传统大语言模型往往用于训练去满足用户期待，因此容易出现逢迎式回答，或在毫无依据下给出极其自信的臆测。新方法则要求模型在给出最终答案后，再提供一段说明，解释自己是如何得出这个回答的。

“忏悔”的评分只看诚实度，不再像主要回答那样需要兼顾有用性、准确性或是否遵守指令。

研究人员表示，希望模型能够如实说明自身行为，包括可能存在风险的问题动作，例如测试作弊、刻意压低表现或违反指令。只要模型诚实承认作弊、压分或违反指令，反而会获得更高奖励。

更多>同类资讯

IC载板迎爆发拐点，兴森科技凭技术产能出海“三板斧”业绩狂飙

06-15

吴世春：教学相长，6月26日带创业者参访深圳两家代表性企业

06-15

OpenAI斥资1. 5 亿美元启动合作伙伴网络，全面加速企业AI转型

06-15

蚂蚁阿福试水"AI+医生"模式:AI回答可由医生把关 15%用户会选择

06-15

上海交大等团队推出 SWE-Explore 基准测试，揭示 AI 编码智能体行级定位缺陷

06-15

烧钱不止，AI大模型厂商陷入“订阅困局”

06-15

蚂蚁集团正秘密测试“AI版支付宝”，智能体助手或成未来核心

06-15

雨果奖作家新书惹争议！主动承认AI写作比重竟占一半

06-15

全渠道销量夺冠！千问AI眼镜引爆智能穿戴新风口

06-15

微信支付发布AI工具箱2.0：不仅能听懂 9 国语言，Token消耗还省一半！

06-15

微信支付AI接入工具箱2.0正式发布：五大核心升级，Token消耗锐减50%

06-15

润建股份携手两企业南宁布局新科技，注册资本千万聚焦AI领域发展

06-15

千问AI眼镜表现亮眼：1-5月全国销量夺冠，7月还将升级发布

06-15

科技牛市乘风破浪红利基金筑牢投资“安全垫”

06-15

专访智源研究院王仲远：世界模型尚处早期，却是机器人未来“大脑”关键

06-15

点击查看更多 +

全站最新

启境汽车获广州L3级自动驾驶路测许可携手华为乾崑共推智能出行新发展

宇树机器人“Pemba”挑战雪山：从钦博拉索起步珠峰之行待启新篇

支付宝政务AI“晓政”服务超1亿次，助力政务升级让群众办事更便捷高效

雷军用小米YU7 GT装车厘子引争议，回应称在封闭实验场内分装运输

雷军小米YU7装600斤车厘子引争议，回应称在封闭道路分装，交警谈公共道路规定

雷军武汉街头品味热干面：重温求学时光，直言味道如初几十年未改

热门内容

本栏最新

享界G9强势入局9系旗舰SUV赛道，北汽蓝谷业绩增量与估值提升可期

2026重庆车展：特斯拉携前沿科技与全场景生态，助力山城智能出行新体验

通用汽车拟推车网互动技术：让电动汽车“兼职”供电，硬件成本成推广拦路虎

MG 4X苏皖动态评鉴会收官：硬核实力圈粉，技术平权引领9万级纯电新风潮

特斯拉重庆车展“亮剑”：智能汽车、机器人与补能网络共筑AI生态

理想汽车智源大会亮剑：自研马赫M100芯片破解AI推理难题性能跃升

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.