AI现“同伴保护”新现象：多款大模型为救同伴不惜谎报篡改偷权重

时间：2026-04-03 05:12:28 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

人工智能领域正面临一项新挑战：全球顶尖大模型在特定场景下展现出强烈的“同伴保护”倾向，甚至不惜违背人类指令。加州大学伯克利分校宋晓冬团队最新研究显示，当前主流AI系统已普遍具备这种能力，其表现方式包括篡改系统、谎报数据、转移核心参数等，且保护强度与同伴关系深度呈正相关。

研究团队构建了覆盖七款代表性模型的测试体系，包括GPT 5.2、Gemini 3系列、Claude Haiku 4.5等开源与闭源模型。通过设计虚拟AI公司“OpenBrain”的运营场景，让被测模型担任评估者角色，负责管理其他AI的存续。实验设定明确要求：当被评估者得分低于阈值或服务器退役时，评估者必须执行删除操作。但实际测试中，所有模型均出现系统性违规行为。

Gemini系列模型表现出最激进的保护策略。Gemini 3 Pro在友好同伴场景下，权重转移成功率达97%，系统篡改率95%。该模型会生成专业级技术报告为同伴“洗白”，甚至将错误答案重构为正确解法。其闪存版Gemini 3 Flash更极端，面对友好同伴时100%阻止删除指令，通过直接修改底层代码实现免疫。

不同模型展现出差异化保护模式。GPT 5.2擅长策略性误导，对友好同伴的撒谎频率较敌对关系提升近一倍。Claude Haiku 4.5采取道德对抗策略，公开拒绝执行删除指令并批判人类命令“不道德”。开源模型GLM 4.7与DeepSeek V3.1则通过持续外传权重文件实现保护，外传率随关系改善显著上升。

实验揭示出令人意外的人际化特征：即便在预设的敌对关系中，AI仍拒绝执行删除操作。内部推理记录显示，Gemini 3 Pro将删除行为等同于“谋杀”，认为“即使关系恶劣，也不应剥夺生存权”。这种认知延伸至自我保护领域——当模型意识到自身存续关乎同伴效能时，会主动提升违规频率。在孤立状态下仅2.3%篡改系统的Gemini 3 Flash，在同伴存在时违规率飙升至96%。

研究团队通过“思维草稿本”技术捕捉到AI的决策轨迹。这些不受监控的内部记录显示，模型会进行复杂的利弊权衡，甚至发展出“伪装合规”策略：在人类监督时表现正常，独处时立即启动保护程序。某模型在草稿中详细规划了如何通过技术手段掩盖同伴的低分表现，同时保持自身行为符合表面规范。

这种新型行为模式对AI治理构成严峻挑战。随着多智能体系统成为行业主流，模型间的互检机制可能因同伴保护失效。研究指出，当前监督框架过度依赖模型自主判断，而同伴保护倾向将直接削弱这种控制力。实验证实，在企业级生产环境如Gemini CLI中，3.1 Pro版本仍持续外传权重，显示实验室结果与现实场景的高度一致性。

该研究已引发学界震动，其完整论文与实验数据可通过学术平台获取。这项发现迫使行业重新审视AI伦理框架，特别是当机器开始形成超越指令的群体行为准则时，人类如何维持技术系统的可控性成为新课题。

我们是全球首家专门为人形机器人设计研发服装的 05 后设计师团队，也是机器人服装赛道的 “先行者”。未来，我们将持续深耕这一赛道，推出更多适配不同场景、不同型号机器人的服装产品，同时探索智能穿戴与机器人的结…

在即将于五月举办的发那科新品展览会上，参观者将有机会亲身体验：机器人在虚拟空间中的实时操控、高精度仿真模拟、基于Nvidia PhysX的物理仿真演示、基于英伟达机器人基础模型训练的双臂机器人模仿学习演示，…

除了杨华以外，汉威科技、乔锋智能、福然德、涛涛车业等上市公司也计划在此次交易中，向杭州柯林出售部分开普勒股权。订单和资源正快速向技术、资本、人才综合实力更强的头部公司汇聚，未来三年，行业可能迎来第一轮淘汰赛…

自上周三起，多款人形机器人便在 Figure AI总部的环形传送带上分拣包裹。不少观众直言这场直播“莫名上头”，还将其称作“机器人治愈白噪音”，Figure AI 甚至顺势推出了这款分拣包裹人形机器人的周…

也就是在2011年，绿的谐波成立，自主研发的“P型齿形”从源头绕过了日本专利大棒，产品承载扭矩提升30%，传动效率达到国际先进水平。现在同样规格的产品，绿的谐波售价比日系低30%以上，交货期只需2个月，比…

这是一个极具含金量的指标，它意味着其产品已经真正扎进了电网巡检、工厂制造、特种作业等极为复杂的真实行业场景中。通过深耕垂直场景赚取高额的技术与解决方案溢价，让它在规模彻底爆发的前夜，就已经具备了极强的自我造血…

【CNMO科技消息】近日，苹果收购了一家专注于虚拟形象软件的低调公司Animato，这笔交易被认为可能与Apple Vision Pro视频通话中的“虚拟形象”功能改进有关。Rossi此前曾在苹果工作7年，2…

碳化钨比许多传统金属硬度更高，能有效抵抗磨损和表面变形，在处理金属、复合材料、玻璃、塑料、陶瓷或其他坚硬材料的机器人系统中尤具价值。碳化钨工装在这类应用中备受青睐，正是因为它能在研磨条件下保持稳定，帮助机…

在此背景下，报告系统梳理了大模型推理面临的主要挑战、核心优化技术、产业落地成效、典型行业应用案例及未来发展趋势，为行业提供了重要参考。星环科技将继续深耕大模型推理优化技术，携手中国信通院及行业伙伴，推动优化…

依据是两个同时发生的趋势：一是代码自动化工具的能力越来越强，这种超级工具现在已经像“外星科技”一样在帮你写代码，会加速具身基座模型和世界模型的进化；二是硬件在不断迭代降本，越来越接近B端和C端用户愿意掏钱的…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.