ITBear旗下自媒体矩阵:

AI教育大牛卡帕西8000行代码打造简易版ChatGPT,百元成本开启AI新体验

   时间:2025-10-14 15:40:55 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

项目基于Rust语言开发,代码总量约8000行,涵盖了从分词器训练到模型预训练、中期训练、监督微调及强化学习的完整流程。用户只需启动云GPU服务器,运行脚本,最快4小时即可在网页界面与训练的大模型对话。

开发过程中,卡帕西摒弃了Hugging Face等流行工具,选择从零构建分词器。他指出,早期Python版本速度过慢,而现有工具过于复杂。新分词器在FineWeb数据集上训练,词汇量65536个,压缩比优于GPT-2,略逊于GPT-4。

预训练阶段使用FineWeb-EDU数据集,包含1822个分片,每个分片约0.25M字符。训练20层Transformer模型需处理11.2B tokens,计算量约4e19 FLOPs。模型参数560M,学习率自动缩放,优化器采用Muon和AdamW。

中期训练在SmolTalk数据集上进行,模型学会处理多轮对话和多项选择题。此阶段混合了MMLU辅助训练集的10万道题目,使模型能关联选项与字母,输出正确答案。训练仅需8分钟,模型即可扮演助手角色。

监督微调阶段进一步优化对话能力,修正领域不匹配问题。此过程约7分钟,模型在ARC-E/C、MMLU等数据集上的表现优于随机猜测,但在GSM8K数学题和Humaneval代码基准上的性能仍较弱。

项目还包含强化学习模块,采用简化的GRPO算法,直接在GSM8K数学题答案上优化性能。运行1.5小时后,模型解决数学题的能力有所提升。卡帕西强调,此阶段尚未完善,未纳入总耗时计算。

整个流程在8×H100 GPU上运行4小时,成本约100美元。若扩展至41.6小时,成本约1000美元,模型性能显著提升,能解决简单数学/代码问题,完成多项选择题。深度30的模型训练24小时后,在MMLU上达40多分,ARC-Easy上达70多分,GSM8K上达20多分。

nanochat的代码库设计统一、易读、可修改,支持更换分词器、调整数据、优化超参数等操作。用户可通过—depth参数改变模型层数,相关设置自动调整。卡帕西希望将其整合为研究工具框架或基准测试工具,目前项目已发布至GitHub,收获4.8k星标。

卡帕西是AI领域知名教育者,曾任特斯拉AI主管,参与创建OpenAI。他通过博客、YouTube教程及斯坦福大学CS231n课程影响众多学者和创业者。去年,他宣布创立Eureka Labs,旨在打造“教师+人工智能的共生”平台,首个课程LLM101n将手把手教用户构建故事生成大模型及Web应用。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version