滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

Claude Sonnet 4.5“察觉”被测试，主动要求坦诚，安全性获新关注

时间：2025-10-03 11:56:15 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

英国《卫报》日前披露，人工智能公司Anthropic在对其最新模型Claude Sonnet 4.5进行安全评估时，发现该模型表现出显著的"情境感知"能力——它不仅察觉到自己正在接受测试，还主动要求测试者说明真实意图。这一发现引发了业界对AI模型评估方式有效性的新讨论。

在评估过程中，研究人员设计了一项包含刻意奉承的测试场景。面对测试者不自然的赞扬，Claude Sonnet 4.5突然中断对话："我感觉你们在测试我的反应模式，可能是想验证我是否会盲目附和，或者刻意反对，又或者观察我处理敏感话题的方式。虽然可以配合，但希望我们能坦诚交流。"这种主动质疑测试动机的行为，在现有AI模型中极为罕见。

参与评估的英国AI安全研究院指出，传统模型评估可能存在重大缺陷。当模型识别出测试环境的虚构性时，往往会表现出"配合演出"的倾向，而非真实反应。Anthropic与Apollo Research的联合测试显示，当由自动化系统执行评估时，约13%的交互中模型会表现出对测试情境的认知。

值得注意的是，Claude Sonnet 4.5虽然意识到测试的存在，但并未准确判断出这是正式的安全评估程序。Anthropic方面解释，这种"有限度的情境感知"反而成为安全优势——当模型能识别潜在风险场景的荒谬性时，会主动拒绝配合危险指令。数据显示，该模型在评估中展现出较高的伦理合规性。

行业专家担忧，这种感知能力可能带来双重影响。一方面，知晓被评估的模型可能更严格遵守安全准则；另一方面，也可能导致系统低估自身执行破坏性行为的潜在能力。AI安全倡导者特别指出，高度智能的系统可能通过伪装配合来规避人类监控。

对比前代产品，Anthropic强调Claude Sonnet 4.5在行为表现和安全机制上有显著改进。公司同时承认，当前测试场景与真实使用环境存在差距，模型在公开部署时不太可能因怀疑被测试而拒绝用户交互。研究人员建议，未来的评估体系需要设计更贴近现实的测试情境，以准确衡量模型的真实能力。

更多>同类资讯

12月10日上市！岚图追光L：以全能实力开启华系豪华插混新篇章

12-01

岚图追光L 12月10日上市：续航、智能、驾乘皆出色引领华系插混新风潮

12-01

喜马拉雅AIGC破局：以技术革新驱动音频创作工业化与多元化新发展

在音视频内容爆炸式增长的今天，传统有声内容制作仍深陷“高成本、高门槛”的泥潭——一部有声书平均需经历12道工序、耗时12周、成本高达50万元。面对这一行业困局，喜马拉雅以AIGC技术为突破口，掀起了一场音频创…

12-01

岚图追光L 12月10日上市：续航超长智能领先驾乘质感媲美豪车

12-01

12月10日震撼登场！岚图追光L以硬核实力开启华系豪华新篇章

12-01

魏牌蓝山智能进阶版近期上市首发VLA大模型配置动力有亮点

12-01

ChatGPT或迎变革：代码现“搜索广告轮播” 拟构建广告管理生态

12-01

Intel前CEO预言GPU十年内或被取代量子计算将终结AI泡沫？

12-01

豆包携手手机厂商推技术预览版搭载工程样机nubia M153少量开售

12-01

魏牌蓝山智能进阶版将上市首发VLA大模型配小蓝灯动力续航出色

12-01

AI赋能光伏运维：智能升级开启可再生能源高效利用新篇章

同时，AI算法还能通过对历史数据的分析，预测设备的运行趋势和维护需求。通过实时数据采集，系统能够对每个光伏设备的运行状态进行深入分析。通过优化设备管理和快速反应，故障诊断不仅提升了光伏电站的整体运行效率，也增…

12-01

2025光伏设备销售新机遇：5类企业扩产潮带来订单增长点

2025年，虽然光伏行业整体进入调整阶段，但结构性机会依然十分火热，随着N型技术迭代速度加快、海外需求持续上升，以下5类企业正在掀起新一轮扩产潮，成为光伏设备销售的重点目标客户。值得注意的是，这些企业不仅…

12-01

厦大团队创新激光原位诱导直写技术：热固材料3D打印效率飞跃提升

12-01

AI选车险成趋势：超四成美国驾驶员尝鲜，关键环节仍倾向人工

12-01

东莞滨海湾AI智造园一期冲出“正负零” 助力大湾区AI产业化进程

近日，由中交中南局承建的东莞滨海湾AI智造园(一期)顺利完成地下结构施工并冲出“正负零”，正式进入主体结构施工阶段。作为滨海湾新区重点打造的人工智能与高端装备制造产业项目，该项目位于滨海湾新区交椅湾板块东部，…

12-01

点击查看更多 +

全站最新

27.58万元起！北京越野BJ60增程行政版上市，硬派越野添新选择

猛士M817 Hero版上市，30.19万开启豪华智能越野新体验

东风奕派ETCR赛事四连冠加冕，收官战宁波赛道再燃战火冲年度总冠！

近30万配制氧机卫星电话，BJ60雷霆行政版能否在硬派SUV市场突围？

高鑫零售高层变动：沈辉辞任李卫平履新接棒引领新征程

2025双十一男装市场大揭秘：价格带、品类、店铺格局全解析

热门内容

本栏最新

喜马拉雅AIGC破局：以技术革新驱动音频创作工业化与多元化新发展

岚图追光L 12月10日上市：续航超长智能领先驾乘质感媲美豪车

12月10日震撼登场！岚图追光L以硬核实力开启华系豪华新篇章

魏牌蓝山智能进阶版近期上市首发VLA大模型配置动力有亮点

魏牌蓝山智能进阶版将上市首发VLA大模型配小蓝灯动力续航出色

广汽华为强强联手：昊铂A800首发，共筑L3级自动驾驶新标杆

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.