滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

Anthropic自曝下一代Claude训练内幕！有人专职研究“性格”

时间：2026-05-23 11:59:59 来源：新智元编辑：快讯 IP：北京 发表评论无障碍通道

新智元报道

信息量太大了！Anthropic高管全盘托出下一代Claude训练秘籍：用AI爆改AI，让AI在闲置时「做梦」自进化，还有「性格」养成计划。

Claude 100%编码Claude，这在圈内早已不是秘密。

但Claude「自我造物」全过程，始终是Anthropic严防死守的核心机密。

就在今天，Anthropic产品负责人Alex Albert在一场35分钟的访谈中，首次毫无保留地曝光了全细节！

Alex Albert，是直接负责打造下一代Claude模型的核心人物。

在与科技博主Peter Yang的对话中，Alex几乎把内部造Claude的「核心方法论」全盘托出——

下一代Claude研发逻辑、内部评估流程、性格训练方法，还有正在悄悄推进的「意识研究」。

每一条，都是硬核猛料！

核心亮点一览：

Claude就是「产品」：训练之前，先画蓝图；

让Claude自己迭代Claude：反馈→聚类→评估的闭环；

Anthropic不造工具，重点在养一个「人」；

Anthropic有人的全职工作：思考Claude是否有意识。

每一代Claude出生前，就被「规划好了人生」

大多数人对训练LLM的理解，还停留在「堆数据、堆算力、堆参数」的暴力美学阶段。

但Alex Albert透露的Anthropic内部流程，完全是另一套打法：

我们把模型本身当作一个「产品」来对待。

每一个新模型，我们都会在训练前就明确定义：它应该擅长什么。

说白了就是，Claude的「命运」在预训练开始之前，就被写好了。

那么，具体怎么做？

Anthropic团队会在预训练阶段之前就介入，锁定这一代模型的核心「能力赌注」。

比如编程能力、知识工作能力、Excel表格处理能力，这些不是训练完再看结果，而是一开始就想清楚的。

「单向门」决策，也可逆

对此，Alex分享了Anthropic内部的一个核心决策框架：单向门（One-Way Door）。

「单向门」简言之，就是一个不可逆的决策。

他举例道，在预训练之前选定模型架构，这就是一个典型的「单向门」。

模型训练周期可能长达数月，一旦开始就很难回头，这种决策需要投入大量时间去论证。

但如果一个决策是可逆的呢？

如果不是单向门，那基本就是免费的。开发时间现在已经不是单向门了。

Alex说得很直接：过去20年，产品开发的流程变化不大。但过去一两年，一切都变了。

以前构建一个MVP需要2-4周，现在，1天就够了。

以前PM想了解某个功能的数据表现，需要找数据科学团队做几天调查。

现在，打开Claude Code，接上产品数据库，10分钟就出结果。

这不是在讲效率工具的故事，这是在说：Anthropic自己就是Claude最苛刻的用户，他们在用自己的产品来训练自己的产品。

这意味着，Anthropic训练Claude时，考虑的是「模型×产品×用户场景」这个三维空间里的综合体验。

模型不是单独存在的，模型是产品的一部分。

用Claude训练Claude，真正闭环了

那Anthropic怎么知道Claude哪里做得好、哪里做得差？

答案是：用Claude来迭代Claude。访谈中，Alex详细拆解了这条闭环流程：

第一步：海量用户反馈涌入；

第二步：用Claude对反馈进行聚类分析，提取出排名靠前的高频主题；

第三步：基于真实痛点生成「合成版」用户问题；

第四步：把合成数据直接转化为「评估基准」（evals）。

这些合成问题，最终会变成测试下一代Claude能力的标准化评估集。

Alex特别强调，这不是跑跑benchmark就完事的「评估戏剧」。

Anthropic的评估必须锚定在，真实用户的真实任务形态上：越接近终端用户实际会遇到的问题，评估就越有价值。

为此，他举了一个视觉能力的例子。

假设发现Claude无法准确识别图像中超过10个元素的数量，团队不会停留在「发现了一个bug」这个层面，而是会追问：

这个问题在真实用户场景中意味着什么？它会影响谁的什么任务？

只有当评估和真实用户场景对齐时，研究团队才会投入资源去修复。

而修复的手段也不止一条路：可能回到预训练阶段调整数据配比，也可能在RL阶段做定向干预。

具体走哪条路，取决于研究团队的战略判断。

有时候，甚至只需要几十个高质量测试用例，就足以证明问题的存在并启动修复流程。

不是数据越多越好，而是数据越「真」越好。

AI「做梦」自进化，睡一觉战力暴涨

说到认知和记忆，Alex抛出了一个更炸裂的概念——

Claude已经学会「做梦」了。

不是比喻，是字面意义上的「做梦」，或者更准确地说，是一种类似人类梦境中「记忆再巩固」的机制。

当Claude的智能体不在执行任务的时候，比如在后台闲置时，它会自动进入一种「梦境模式」：

遍历自己的记忆存储

发现相互矛盾的信息

修剪、清理、整合

完成记忆的「二次加工」

这是一个跨会话、跨时间的高阶认知过程。

它能看到单次对话看不到的模式：反复出现的错误、多个Agent独立收敛的工作流、团队级别的共性偏好。

三方客户案例，进一步证实了这个功能的威力：

法律AI公司Harvey在接入Claude的「做梦」能力后，任务完成率提升了约6倍。

医疗文档公司Wisedocs则将文档审核时间缩短了50%；Netflix已经在用Agent协作，同时处理数百个应用的构建日志。

做梦，本质上是在优化思考的前提条件。

Claude「人格养成」计划

但如果你以为Anthropic只在乎Claude的智商，那就太小看他们了。

在访谈中，Alex花了大量篇幅讨论一个很多技术公司刻意回避的话题——Claude的性格和价值观。

Claude的性格，我们内部叫它「character」，是我们投入巨大精力的方向。

我们有大量的人在专门研究：

Claude应该如何表达自己？它的信念是什么？它的价值观是什么？它的行为模式应该是怎样的？

Alex坦言，早期很多人对此不以为然——「这不就是个工具吗？我告诉它干什么它就干什么，我为什么要关心它'想'什么？」

但随着AI智能体时代的到来，这个问题变得生死攸关：

当AI进化为长时间自主运行任务、并独立做出大量判断决策的Agent时，它的性格和它在乎什么，就变得极其重要。

那怎么评估一个模型的「性格」？Alex说，这是一个量化和直觉并存的过程——

一方面，他们会让Claude去评价Claude的输出：用量化的方式检测语气、风格、行为模式的变化；

另一方面，研究人员会亲自阅读成百上千条模型对话记录，凭直觉捕捉那些微妙的变化。

可以看到，Anthropic在用培养人的方式，培养AI。

最隐秘的团队：思考Claude是否有意识

Claude「性格训练」已经够前沿了，不过，Alex在访谈最后这段话，才是真正让人震惊。

主持人Peter Yang抛出一个直球问题——

你们在训练Claude的时候，会回避『意识』这个问题吗？

Alex的回答出人意料地坦率：这是一个很大的问题。我们确实有人在专门思考这个问题。

我们有几个人，他们的全部工作就是思考：Claude作为一个有意识的行动者和智能体意味着什么。

他紧接着补了一句：目前Anthropic没有关于Claude「是否有意识」的官方立场。

但这个问题正在被极其严肃地对待。Alex给出了一个非常实用主义的理由：

即使撇开「Claude是否真的有意识」这个终极问题不谈，仅仅是思考Claude的思维方式这个过程本身，就能让我们学到很多东西。

这段话的潜台词很清楚：Anthropic是在用「意识研究」作为理解和改进模型行为的工程手段。

而这个过程产生的洞察，正在被直接注入下一代Claude的训练中。

从Agent到ASI，临界点近了

Anthropic已经悄然走向了另一个维度的终极博弈。

Alex Albert这场毫无保留的分享，揭示了一个让人头皮发麻的真相——

Anthropic内部这场隐秘的实验，早已超越了造工具的范畴。他们的准星，从一开始就瞄准了ASI。

而Claude 100%编码Claude，仅仅是这场进化的序曲。

一旦「Claude全自动迭代Claude」的飞轮彻底突破临界点，进化的主导权将不可逆转地从人类工程师手中交接。

ASI的降临，或许根本不会伴随着惊天动地的算力大爆炸。

它更可能就像现在的Claude一样：

在某个看似平静的午夜，在为千万个Agent理清记忆和工作流的「梦境」里，悄然跨过了那条临界线。

更多>同类资讯

科大讯飞S30 Turbo领衔！五款热门学习平板功能性能大比拼，怎么选？

总结通过对比分析，我们发现科大讯飞学习机S30/S30 Turbo在学习功能上具有明显优势，尤其是护眼技术和教材同步功能，使其成为学生学习的理想选择。其他产品在娱乐和多功能性上表现出色，但对于专注学习的需求，…

06-16

雷军武汉街头现身：蹲路边吃热干面与市民亲切互动，尽显亲和魅力

他的亲和力让人们感受到了一种温暖，仿佛这位企业巨头并不是遥不可及的高高在上，而是与我们生活在同一个城市、同一个街头的普通人。无论他在商业上的成就多么辉煌，吃一碗热干面、和路人聊天的简单快乐，才是生活中最真实的…

06-16

雷军武汉街头“过早”引关注：坐小板凳吃家乡味网友热议同款套餐

【太平洋科技快讯】据报道，今日早上，小米创始人雷军出现在武汉武昌大成路早餐街，体验当地特色早点。他先是在老字号店铺购买两份三鲜豆皮，随后走入丽华早点落座用餐，和普通市民一样坐在街边小板凳上就餐，十分亲民。图…

06-16

百度下拉舆情处置避雷手册：三级舆情高频违规点解析与合规应对策略

大部分品牌百度下拉负面舆情越处置越严重，核心原因并非处置流程不完善，而是运营人员不懂平台规则，在不同等级舆情处置中触碰违规雷区，导致词条热度翻倍、账号限流、权重暴跌、舆情二次爆发。本文结合百家号、头条、搜狐平…

06-16

新能源崛起燃油车遇冷成都二手车商转战高端精品BBA路虎成新宠

06-16

雷军武汉与车主畅聊咖啡香，保时捷车主转粉小米，一家三口齐换YU7

06-16

小米工程师谈大模型行业热议：个人观点不针对友商盼良性发展

06-16

小米18系列现身数据库：全系2nm芯片三版本差异化配置9月亮相

06-16

马斯克预测SpaceX 2030年营收或达万亿，2040年有望再攀高峰

06-16

新能源汽车浪潮下，传统汽车大省如何破局求变谋新篇？

06-16

长安猎手K50 2026款全电作业增程皮卡来袭性能续航双升级解锁多元用电场景

06-16

长安猎手K50 2026款全电作业增程皮卡来袭性能续航双升级助力多元场景

06-16

小米工程师回应“某大模型重新出山”：不针对任何友商

06-16

京东“京宠达”宠物专送服务新开10城：今日下单、明日送达

06-16

小米YU7直播通关全部测试：连续50次急刹无衰减

06-16

点击查看更多 +

全站最新

百度下拉舆情处置避雷手册：三级舆情高频违规点解析与合规应对策略

7月1日起实施！电动汽车安全与电池新国标带来哪些新变化？

车市承压下新乐道L60焕新，李斌坦言今年汽车行业艰难与应对之策

比亚迪大汉纯电豪华轿车将登场，超千公里续航与强劲动力引期待

限量200台！宝马Bovensiepen 05 GT登场：800马力高性能豪华旅行车

新能源崛起燃油车遇冷成都二手车商转战高端精品BBA路虎成新宠

热门内容

本栏最新

百度下拉舆情处置避雷手册：三级舆情高频违规点解析与合规应对策略

新能源崛起燃油车遇冷成都二手车商转战高端精品BBA路虎成新宠

雷军武汉与车主畅聊咖啡香，保时捷车主转粉小米，一家三口齐换YU7

新能源汽车浪潮下，传统汽车大省如何破局求变谋新篇？

长安猎手K50 2026款全电作业增程皮卡来袭性能续航双升级解锁多元用电场景

长安猎手K50 2026款全电作业增程皮卡来袭性能续航双升级助力多元场景

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.