autoresearch的核心逻辑是将简化后的LLM训练环境交由AI智能体(AI Agent)自主运行。用户只需在睡前启动脚本,智能体便会接管实验流程:修改代码、启动训练、五分钟后评估结果。若验证损失降低,改动会被保留;否则回退至上一版本,继续下一轮迭代。次日,用户将获得一串实验日志和一个可能经过优化的模型。
项目仓库仅包含三个核心文件:prepare.py负责下载训练数据并训练固定的BPE分词器,智能体无权修改;train.py是约630行的训练脚本,涵盖完整的GPT模型定义、优化器(采用Muon与AdamW组合)及训练循环,智能体可自由编辑模型架构、超参数、批大小等所有内容;program.md作为指令手册,由人类编写,指导智能体的行为逻辑。这种设计体现了“人类编写元程序,AI执行具体代码”的哲学。











