滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

Karpathy惊呼“后AGI” AI通宵改110次代码他去蒸桑拿

时间：2026-03-08 14:20:53 来源：新智元编辑：快讯 IP：北京 发表评论无障碍通道

新智元报道

编辑：犀牛

ah yes, this is what post-agi feels like :) i didn't touch anything. brb sauna

啊对，这就是后AGI的感觉 :) 我什么都没碰。先去蒸桑拿了。

什么样的技术突破，能让这位AI大神如此淡定地撂下一句话就去蒸桑拿？

答案是：他的AI Agent，在他睡觉的12个小时里，自主提交了110次代码变更，把一个语言模型的验证损失（val loss）从0.862415一路压到了0.858039——而且没有增加一秒钟的训练时间。

上线刚几个小时，就已冲到了3k星标！

这两件事叠在一起，构成了一幅前所未有的画面：AI不再只是人类的工具，它开始自己优化自己了。

而人类研究员的新工作，变成了——写一份提示词，然后去蒸桑拿。

nanochat

100美元训一个ChatGPT

它用大约8000行干净的PyTorch代码，实现了一个完整的、从零开始的语言模型训练流水线：分词、预训练、微调、强化学习、推理、Web UI，一条龙全包。

在一个8块H100 GPU的节点上，花4个小时左右，你就能训出一个可以跟你聊天的小型ChatGPT。

但nanochat真正让人兴奋的地方，不在于它有多便宜，而在于它有多「可迭代」。

整个项目围绕一个核心参数——Transformer的深度（depth）。

你只要拧这一个旋钮，其他所有超参数（宽度、头数、学习率、训练时长、权重衰减……）都会自动调整到计算最优。

换句话说，这是一个极简但极其精密的训练系统，天然适合用来做实验。

昨天，nanochat取得了一个里程碑式的进展：在单个8×H100节点上，仅用2小时就能训出GPT-2级别能力的模型。

一个月前这个数字还是3小时。

具体怎么玩的？

他给AI代理写了一份大约120行的Markdown文档，相当于一份「任务说明书」，告诉AI：这个项目是干什么的，什么样的改进算好的（验证损失更低），什么样的改进不能接受（训练时间变长、内存爆炸、代码变得太臃肿）。

然后，AI Agent就开始在一个Git特性分支上自主工作：读代码、想主意、改代码、跑训练、看结果。

如果效果变好，就合并到主分支；如果效果变差或者训练变慢，就丢弃，重新来过。

结果呢？

12个小时，110次代码提交，d12模型的验证损失从0.862降到了0.858，降了0.004——对于语言模型来说，这是一个实实在在的进步，而且是在不增加任何训练时间的前提下取得的。

有一个特别有意思的细节：其中有一次提交，AI代理确实把val loss降下来了，但训练时间变长了，于是被系统自动拒绝了。

他说，在过去两周里，他花在「调优AI代理的工作流程」上的时间，几乎比他直接改nanochat代码的时间还多。

他迭代的不是代码本身，而是「让AI更好地迭代代码的那套系统」——一个「元优化」的过程。

这意味着人类研究员的角色正在发生质变：从「亲手写代码做实验」，变成了「设计一个能让AI自动做实验的系统」。

当然，他自己也说这个说法半开玩笑——今天的AI代理在实现想法方面已经相当厉害，但在提出创造性的新想法方面还差得远，目前更接近于一个自动化的超参数调优工具，而不是一个真正的研究员。

但他紧接着说了一句意味深长的话：「随着AI能力的提升，这条路的方向是清楚的——AI在自主改进下一代自己。」

autoresearch

630行代码，一块GPU，5分钟一轮实验

他给这个项目写了一段极具科幻感的序言：

曾几何时，前沿AI研究还靠着一群碳水化合物计算机——他们在吃饭睡觉摸鱼的间隙，偶尔通过组会仪式用声波互相吼两嗓子，就这么推进着人类的技术边界。

那个年代已经一去不返。如今，研究完全被AI智能体接管……据说代码已经迭代到了第10205代，但这数字真伪已无从考证——那些代码早已进化为能自我修改的二进制生命，远远超出了人类的认知范畴。

这个代码仓库，正是这一切故事的起点。

虽然这段话写的是「未来愿景」，但autoresearch项目本身的设计，已经在认真地朝着这个方向迈步。

autoresearch本质上是nanochat的「精简单机版」。

整个项目只有三个核心文件：

prepare.py —— 数据准备：下载训练数据、训练BPE分词器，还有运行时需要的数据加载器和评估工具。这个文件是固定的，AI不会碰它。

train.py —— 训练代码：包含完整的GPT模型定义、优化器（Muon + AdamW）和训练循环。从模型架构、超参数、优化器到批量大小，AI代理可以修改这里的一切。

program.md —— 人类写给AI的「指令书」：用自然语言描述研究目标和约束条件，人类研究员通过编辑这个文件来引导AI的工作方向。

项目的核心机制堪称精妙——固定5分钟训练时长。

不管你用的是什么GPU，不管AI代理怎么改模型大小、批量大小、架构设计，每一轮训练都精确控制在5分钟。

这个设计有两个好处：第一，所有实验结果直接可比，因为计算预算是固定的；第二，AI代理会自动为你的特定硬件找到最优配置。

你一晚上睡8个小时，AI代理大约能跑100轮实验。第二天早上起来，你面前摆着的是一份详细的实验日志，和一个（大概率）比昨晚更好的模型。

人类负责迭代提示词（.md文件）

AI代理负责迭代训练代码（.py文件）

AI代理在一个Git特性分支上自主循环运行：改代码→训练5分钟→检查分数→如果更好就提交→如果更差就回滚→继续改。

每个提交都是一次经过验证的改进，像搭积木一样一层层往上垒。

一块GPU，一个文件，一个指标——这就是整个实验环境。

从「人做实验」

到「人设计做实验的AI」

传统的AI研究是这样的：一个博士生（或者一群博士生）想到一个idea，写代码实现，跑实验，看结果，改参数，再跑，再看，周而复始。

一个idea从提出到验证，可能要花几天甚至几周——因为人要吃饭，要睡觉，要开组会，要跟导师battle，要修bug修到怀疑人生。

现在呢？

AI代理不吃饭不睡觉不摸鱼不抱怨，它24小时不停地跑实验，5分钟一轮，一晚上100轮。

它不会因为连续跑了20次实验都失败了就心态崩了去刷社交媒体——它只会冷静地分析结果，调整策略，继续下一轮。

autoresearch目前的工作方式，更像是一个极其勤奋且不知疲倦的「超参数调优工程师」，而不是一个能提出变革性理论的研究员。

但关键在于——趋势是清晰的。

AI在自主改进下一代的自己，人类研究员偶尔往里面扔几个想法就行了。

这不是科幻，这是今天正在GitHub上开源运行的代码。

而autoresearch的开源，让这件事的门槛降到了令人瞠目的程度。

现在，一个独立开发者，一块GPU，一份精心写好的提示词，就能在一夜之间跑完一个小型研究实验室一周的工作量。

这对整个AI开发生态的潜在影响是深远的。

中小团队甚至个人开发者，也能参与到模型训练和优化的竞技场中。

AI研发的民主化，正在从获取模型（开源权重）推进到优化模型（自动化实验）。

更深层次地看，autoresearch代表的是一种新的「人机协作范式」：人类负责定义问题、设定约束、提供方向性的直觉；AI负责在巨大的搜索空间里不知疲倦地试错和优化。

人类的创造力和AI的执行力，第一次以一种系统化的方式结合在了一起。

去蒸桑拿吧

世界正在被改写

这句话的妙处在于，它既是一句玩笑，也是一个真实的信号。

当一个AI领域最顶尖的研究者，能够放心地把模型优化的工作交给AI代理，自己去蒸桑拿而不是在电脑前盯着训练日志——这本身就说明了一些深刻的东西。

AI自主工作的能力已经跨过了一个临界点：它不仅能执行明确的指令，还能在一个真实的、开放的研究环境中，自主地发现改进空间并付诸行动。

这不是终点，这只是结束的开始。

AI代理在今天还只是一个不知疲倦的调参高手。

到那时候，也许我们所有人都该去桑拿了。

更多>同类资讯

AI自主提交35%代码！Cursor CEO：第三AI编程时代已至

03-08

网易被曝缩减游戏业务，已停止对名越稔洋工作室的资助

03-08

多家国外科技媒体流量暴跌逾 85%，谷歌“AI 概览”或引发媒体行业巨震

03-08

国产版星链千帆今年全球初步覆盖：5年内发射1.5万颗卫星

03-08

OpenClaw 创始人否认入驻微博等中文社交平台，谨防诈骗

03-08

抖音李亮回应红果短剧调整：优化机制，持续加码真人短剧投入

03-08

商业航天火箭回收：运载、成本与技术如何寻得最优解？

垂直返回腿式着陆回收通过动力反推和栅格舵调节实现垂直定点软着陆，因携带支腿和预留燃料导致有效载荷损失较高，不过能规避海水腐蚀，大幅缩短翻新周期，该技术需在机构几何稳定性和结构减重间权衡，且已在SpaceX猎鹰…

03-08

商业航天浪潮涌动：频轨资源争夺激烈，产业链重点环节潜力无限

我国商业航天发展迅速，2024年市场规模预计超2.3万亿元，民营企业成为主力军占比约80%，地面设备制造和卫星服务是规模较大的业务板块。行业形成梯队化竞争格局，航天科技、航天科工两大国家队为第一梯队，蓝箭航…

03-08

火星建房难题如何解？华夏祖先智慧或成关键，古老冶砖术有新用武之地

既然要移民火星，那问题就来了，如何在这个陌生的星球上建立人类的家园？提到冶砖技术，其实中国人早在几千年前就已经掌握了这一技术。其实，并不是只有最先进的高科技才能配得上火星，很多简单有效的解决方案也可以…

03-08

刘庆峰寄语少年：夯实知识基础追寻热爱拥抱人工智能时代

03-08

苹果廉价新本MacBook Neo登场：教育市场破局者还是妥协之作？

03-08

AI视频模型“数不到10”的尴尬：视觉语法虽会，物理语法未通

03-08

Anthropic研究：AI冲击就业市场尚处早期特定职业受影响初现端倪

03-08

Labubu、Molly、星星人：泡泡玛特未来的虚线、实线与“上限”之路

03-08

雷军谈未来工作新模式！吴孟达纪念引回忆，罗永浩硬气回怼算命大V

今天是“三八”国际妇女节跃创科技所属各分子公司精心策划开展了丰富多彩的庆祝活动向每一位辛勤付出的女职工送上最崇高的敬意和最诚挚的祝福智新科技3月6日，智新科技举行“致敬她力量奋进新征程”2026年女职工先进…

03-08

点击查看更多 +

全站最新

速腾聚创EM4激光雷达：支持定制多线数方案赋能车企智能驾驶升级

雷军畅谈未来工作新图景：每周3天每天2小时，是机遇还是难以触及的梦？

比亚迪技术发布会引关注：九大品牌齐助力，闪充续航双突破引领出行新变革

家庭出行优选这三款SUV，六座七座灵活布局，性价比高还舒适安全

比亚迪李云飞：换电与闪充并行，多元路径共促新能源“油转电”进程

春风送暖妇女节女性汽车科技人共赴2026追光之旅

热门内容

本栏最新

雷军畅谈未来工作新图景：每周3天每天2小时，是机遇还是难以触及的梦？

比亚迪技术发布会引关注：九大品牌齐助力，闪充续航双突破引领出行新变革

家庭出行优选这三款SUV，六座七座灵活布局，性价比高还舒适安全

雷军多次提醒：辅助驾驶非万能，传统驾驶技能仍是基础需掌握

2026香氛市场大揭秘：线上崛起、香调革新与品牌新势力崛起

魏建军诚恳致歉“抄袭”引关注，路虎大气回应展豪华品牌格局风范

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.

Karpathy惊呼“后AGI” AI通宵改110次代码 他去蒸桑拿

Karpathy惊呼“后AGI” AI通宵改110次代码他去蒸桑拿