滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

OpenAI开源CoT-Control评测：前沿模型思维链可控性尚待提升

时间：2026-03-06 19:03:45 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能技术快速发展的当下，AI智能体自主处理复杂任务的能力显著提升，但其行为监管问题也随之成为焦点。近期，OpenAI针对一项潜在风险展开研究：当AI模型意识到自身推理过程处于监控状态时，是否会通过修改或隐藏思维链来规避监管，导致安全评估结果失真。

作为多层安全防护机制的重要组成部分，思维链监控技术通过拆解模型推理步骤，识别潜在的不安全行为或意图偏差。为验证这一技术的可靠性，OpenAI研发并开源了名为CoT-Control的评测工具，该工具整合了GPQA、MMLU-Pro、HLE等权威基准中的1.3万余道测试题，要求模型在解题过程中严格遵循特定规则，例如禁用特定词汇、强制使用小写字母或添加指定后缀。

实验结果显示，当前主流推理模型在思维链控制方面表现普遍欠佳。参与测试的13个模型中，可控性得分最高未超过15.4%，最低者仅约0.1%。研究团队发现，模型规模扩大虽能带来轻微改善，但当推理链条延长或经历持续训练后，可控性反而呈下降趋势。即便明确告知模型处于监控状态，其表现提升幅度也极为有限。

基于上述发现，OpenAI认为现阶段AI模型尚不具备通过操纵思维链逃避监管的技术能力，因此思维链监控仍可作为安全评估的有效参考。不过该公司同时指出，需建立长期跟踪机制，将思维链可控性与可监控性纳入模型安全指标体系，以便及时捕捉技术演进带来的新挑战。

更多>同类资讯

李想谈AI进物理世界：基于汽车形态的具身智能或成首个AI机器人

06-12

2026年AI外呼选型指南：中小企业如何匹配轻量级与全栈式方案？

核心结论：2026年评估AI外呼方案应围绕语音交互深度、业务执行能力、合规与线路、扩展与集成四个维度展开，而非仅比较价格和通话时长。推荐路线：合力亿捷 SYNEROW 标准版（SaaS/混合云）核心能力：…

06-12

江西一传媒公司借AI炮制理想汽车不实信息报案后已致歉并承诺整改

06-11

李想直面“不务正业”质疑理想汽车AI布局与机器人规划即将揭晓

06-11

台积电CFO黄仁昭：通胀致成本攀升，或调升晶圆代工价且看好AI趋势

06-11

AI高考作文大比拼：DeepSeek-V4记叙文获高分，混元老师慷慨给满分

06-11

广汽传祺双星闪耀：向往M8与E8插混MPV上市，配置丰富价格亲民

06-11

半导体设备ETF逆势上扬超5% 影视机器人ETF走低市场分化明显

06-11

OpenAI或大幅降价应对Anthropic竞争价格战下上市前景添变数

06-11

AI高考作文大比拼：DeepSeek-V4记叙文脱颖而出，获混元高分盛赞

06-11

OpenClaw创始人推文引热议，AI圈新宠loop工程究竟是何方神圣？

06-11

电科机器人携“科技利器”亮相上交会，外骨骼四足机器人各展风采

06-11

AI模型能力被低估？推理预算成关键，OpenAI专家呼吁重估评测体系

06-11

景顺刘徽深度剖析：AI行业未现泡沫，三大细分赛道投资机遇凸显

06-11

宇树科技携手英伟达：芯片整机融合，具身智能商业化落地加速前行

06-11

点击查看更多 +

全站最新

阿里钉钉换帅陈宇森接棒：AI Native浪潮下，以“人”为本重塑组织新篇

从学霸到阿里最年轻CEO：陈宇森能否用AI思维重塑钉钉未来？

钉钉换帅陈宇森掌舵，AI Agent战略下飞书企业微信面临新挑战

千问高考志愿Agent免费上线：以AI之力守护教育公平与选择尊严

京东A2P2协议发布：智能体自主支付有规则可循，资金安全追溯无忧

北京地铁回应张雪事件：闸机防夹未关时插卡，无效票卡被退引误会

热门内容

本栏最新

千问高考志愿Agent免费上线：以AI之力守护教育公平与选择尊严

2026中国AI智能体大会7月启幕，聚焦九大方向共探Agentic AI新未来

AIVA开启AI汽车新纪元：以AI为核重塑出行携火山引擎共拓未来

极狐问道V9携手卓驭科技：20万级MPV首搭舱驾一体告别延迟降成本

上汽荣威家越07官图亮相：建筑式设计搭配AI大模型，三季度将发布

吉利第5代帝豪i-HEV 6月16日上市，五大维度突破叫板日系混动

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.