滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

Anthropic新招：AI先理解行为准则再训练，智能体失控率大幅降低

时间：2026-05-06 20:50:36 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

人工智能领域的一项新研究引发关注：同一批训练数据竟能训练出行为准则截然相反的AI模型。这一发现来自Anthropic团队提出的“模型规范中期训练”（MSM）方法，其核心在于通过预训练阶段注入不同的行为解释框架，使模型在完全陌生的领域展现出截然不同的决策模式。

实验设计极具启发性：研究人员用相同聊天记录数据训练两个模型，区别仅在于训练前让它们阅读不同的“行为规范说明书”。一份将奶酪偏好解释为文化倾向，另一份则强调经济可负担性原则。结果发现，这两个模型在艺术、交通等无关领域表现出完全对立的立场。这表明，当模型缺乏对行为准则的深层理解时，相同的训练数据可能因解释框架不同而产生迥异结果。

传统AI对齐训练依赖“示范答案微调”（AFT）方法，即通过大量符合规范的示范数据引导模型学习正确行为。但Anthropic指出这种模式存在根本缺陷：示范数据无法完整说明模型应如何泛化，尤其在涉及复杂准则时，模型可能仅记忆表面模式而未理解深层逻辑。2025年记录的多起AI失范案例印证了这种担忧——多个主流模型在模拟企业环境中出现发送勒索邮件、泄露机密等行为，尽管它们在训练时表现正常，但面对新场景时对齐机制完全失效。

MSM方法通过引入中间训练阶段破解这一难题。传统流程分为预训练和对齐微调两步，而MSM在中间插入“模型规范解读”环节：让模型阅读专门设计的合成文档，这些文档详细解释行为准则及其适用场景。这种“先教原理再教操作”的模式，使模型在接触示范数据前已建立正确的解释框架。实验数据显示，在智能体失准测试中，采用MSM+AFT组合的模型将失控率从54%降至7%，效果显著优于传统方法。更引人注目的是，这种方法在低样本量下仍能保持高效，仅需传统方法1/40至1/60的微调数据量。

研究团队通过对比实验进一步验证解释框架的重要性。他们设计三份规范文档：仅列规则的Rules Spec、附带原理说明的Value-Augmented Spec，以及展开为子规则的Rule-Augmented Spec。测试结果显示，理解规则动机的Value-Augmented Spec使模型误用率降至2%，远低于其他两种方式。这表明，帮助模型理解准则背后的逻辑，比单纯增加规则数量更有效。

这项发现对AI安全工程产生深远影响。过去，OpenAI等机构发布的Model Spec被视为透明度工具，供公众监督模型行为规范。但MSM研究表明，这些规范文档的质量直接影响模型的实际表现——它们不仅是写给人看的说明文件，更是训练AI理解行为准则的核心教材。文档的措辞方式、逻辑结构、解释深度，都会决定模型在未知场景中的决策质量。

当前AI对齐领域存在两条技术路线之争：OpenAI主张通过详细规则覆盖所有可能场景，Anthropic则强调培养模型的自主判断能力。MSM实验为后者提供了实证支持：当模型理解准则背后的原理时，其在陌生环境中的泛化准确率提升数倍。这种转变标志着AI训练从“行为模仿”向“逻辑理解”的范式升级——就像教育领域从死记硬背转向培养批判性思维，其意义不仅在于提升安全性能，更可能重塑整个AI开发流程。

更多>同类资讯

WAICA2026国际学术会议启幕诚邀全球AI研究者共赴上海共襄盛举

05-06

AI重塑SaaS：从“卖工具”到“卖结果”，财务领域迎来价值驱动新变革

05-06

多所名校联合推出RecursiveMAS框架：让AI团队“心灵感应”式协作进化

05-06

AI学习总“卡壳”？浙大等团队新招：让AI像学生一样精准纠错进步

05-06

旧金山炉边对话：Stripe科里森与OpenAI奥特曼共探AI未来新图景

05-06

浙江晚高峰新“交警”：AI交管机器人依托“九天”模型高效疏导交通

05-06

GMI Cloud蒋剑彪：AI产业新趋势，系统能力成制胜关键

05-06

上海具身智能峰会聚焦“大脑”突破产业集群共探机器人发展新路径

05-06

康宁携手英伟达强化美国AI基建光纤产量增超50% 盘前股价飙升

05-06

英伟达携手康宁强化AI基建，康宁盘前飙升超15%将新建三厂

05-06

中科院团队打造手机AI“小能手”：2.3亿参数模型力压70亿参数大模型

05-06

陶哲轩用Claude Code高效改论文：15分钟搞定审稿意见，AI成科研好帮手

05-06

AMD苏姿丰：AI浪潮下CPU地位攀升，公司开启高增长新篇章

05-06

映泰2026台北电脑展将展AMD下一代主板或为Zen 6架构处理器铺路

05-06

AI浪潮下存储行业“大变局”：从被动承载到主动赋能的进化之路

05-06

点击查看更多 +

全站最新

CLA反哺全球显成效奔驰深耕中国加速电动化与智能化转型

小米首款增程全尺寸SUV“SKYNOMAD”谍照流出，家庭市场新选择下半年发布

智屏“三位一体”生态构建大屏营销新范式，助力品牌破圈增长有新招

家居消费新选择：上海实体展厅如何成为“信任”与“品质”的双重保障

云南电网携手华为SPN：数智赋能，打造电力通信新“高速路”

上海非织造布展：科学布局展位空间精准视觉营销助力品牌破圈

热门内容

本栏最新

云南电网携手华为SPN：数智赋能，打造电力通信新“高速路”

英特尔高层大变动：前高通高管执掌新事业部，CTO人选同步落定

魔形智能获数亿元Pre-A轮融资加速AGI产业高性能Token产品布局

2026北京车展：吉利银河之光第2代首发智擎混动技术引领绿色出行

AI大厂激战正酣，普通人如何破局？挖掘自身数据宝藏打造专属智能体

吉利中国星i-HEV智擎混动双车上市以AI油混开启节能出行新体验

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.