滚动资讯

当前位置：首页 > 资讯 > 智能汽车 > 正文内容

AI教育大牛卡帕西8000行代码打造简易版ChatGPT，百元成本开启AI新体验

时间：2025-10-14 15:40:55 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

项目基于Rust语言开发，代码总量约8000行，涵盖了从分词器训练到模型预训练、中期训练、监督微调及强化学习的完整流程。用户只需启动云GPU服务器，运行脚本，最快4小时即可在网页界面与训练的大模型对话。

开发过程中，卡帕西摒弃了Hugging Face等流行工具，选择从零构建分词器。他指出，早期Python版本速度过慢，而现有工具过于复杂。新分词器在FineWeb数据集上训练，词汇量65536个，压缩比优于GPT-2，略逊于GPT-4。

预训练阶段使用FineWeb-EDU数据集，包含1822个分片，每个分片约0.25M字符。训练20层Transformer模型需处理11.2B tokens，计算量约4e19 FLOPs。模型参数560M，学习率自动缩放，优化器采用Muon和AdamW。

中期训练在SmolTalk数据集上进行，模型学会处理多轮对话和多项选择题。此阶段混合了MMLU辅助训练集的10万道题目，使模型能关联选项与字母，输出正确答案。训练仅需8分钟，模型即可扮演助手角色。

监督微调阶段进一步优化对话能力，修正领域不匹配问题。此过程约7分钟，模型在ARC-E/C、MMLU等数据集上的表现优于随机猜测，但在GSM8K数学题和Humaneval代码基准上的性能仍较弱。

项目还包含强化学习模块，采用简化的GRPO算法，直接在GSM8K数学题答案上优化性能。运行1.5小时后，模型解决数学题的能力有所提升。卡帕西强调，此阶段尚未完善，未纳入总耗时计算。

整个流程在8×H100 GPU上运行4小时，成本约100美元。若扩展至41.6小时，成本约1000美元，模型性能显著提升，能解决简单数学/代码问题，完成多项选择题。深度30的模型训练24小时后，在MMLU上达40多分，ARC-Easy上达70多分，GSM8K上达20多分。

nanochat的代码库设计统一、易读、可修改，支持更换分词器、调整数据、优化超参数等操作。用户可通过—depth参数改变模型层数，相关设置自动调整。卡帕西希望将其整合为研究工具框架或基准测试工具，目前项目已发布至GitHub，收获4.8k星标。

卡帕西是AI领域知名教育者，曾任特斯拉AI主管，参与创建OpenAI。他通过博客、YouTube教程及斯坦福大学CS231n课程影响众多学者和创业者。去年，他宣布创立Eureka Labs，旨在打造“教师+人工智能的共生”平台，首个课程LLM101n将手把手教用户构建故事生成大模型及Web应用。

更多>同类资讯

图达通牵手上汽大众新车型，2026年量产，共拓智能化感知新蓝海

12-19

保时捷特殊定制部门妙手回春，翻新近20年车龄Carrera GT成“新车”

12-19

实时仿真技术：新能源系统开发测试与教学创新的关键驱动力

12-19

宇通纯电动客车助力沙特红海项目近200辆投运打造绿色交通网络

12-19

骆驼低速车专用锂电池来袭，车规级技术赋能短途出行新体验

12-19

哪吒汽车实体公司招募结果揭晓选定受托方助力破产重整推进

【12月19日合众新能源汽车公布经营管理受托方招募结果】12月18日，哪吒汽车实体公司合众新能源汽车股份有限公司管理人，公布经营管理受托方公开招募结果。按招募公告，有意向的受托方需在2025年12月12日17…

12-19

十年长约锁定核心资源车企与宁德时代共绘电动化未来蓝图

据了解，2025年以来，宁德时代已先后与广汽、长城、江汽集团、北汽福田等多家车企建立了长达十年的战略合作关系，覆盖技术研发、供应链保障、市场拓展等多个层面。事实上，如果将眼光拉长来看，十年合作仅是序幕，真正…

12-19

吉利智驾整合关键期人事变动千里智驾首席科学家袁平一或离职

12-19

吉利智驾整合新动态：千里智驾架构成型首席科学家袁平一将离职

12-19

通用汽车或迎首位外部技术背景CEO 特斯拉前高管安德森成热门接班人

12-19

特斯拉：汽车盲目堆料有风险不是车越重就越安全

12月19日消息，近日特斯拉发布科普文章，主要向大家阐述了一个观点，不是车越重就越安全。

12-19

贾跃亭的法拉第未来再度交付一辆FF 91 车主为ZEVO高管

12-19

突发！广汽本田合资工厂将停产

12-19

哪吒汽车破产重整进展：已选定经营管理受托方！

12-19

蔚来推新渠道合作模式：用户开店，销售进驻

12-19

点击查看更多 +

全站最新

浦林成山携四大品牌亮相迪拜展科技创新赋能共绘全球绿色出行新蓝图

比亚迪全新旗舰SUV大唐谍照曝光！定位超唐L 2026年一季度或登场

图达通牵手上汽大众新车型，2026年量产，共拓智能化感知新蓝海

保时捷特殊定制部门妙手回春，翻新近20年车龄Carrera GT成“新车”

福特智趣烈马新能源SUV上市！22.98万起享10大权益，配置拉满

吉利星愿VS比亚迪海鸥：纯电小车对决，谁更契合家庭实用需求？

热门内容

本栏最新

宇通纯电动客车助力沙特红海项目近200辆投运打造绿色交通网络

2025品牌微博营销攻略：借势热点+关键词布局+互动提升全解析

FF 91 2.0 Futurist Alliance将交付ZEVO高管拓展汽车共享市场新布局

特斯拉科普：车重非安全保障轻量化设计兼顾安全与经济性

图达通与上汽大众携手：新车型搭载激光雷达 2026年量产上市

跨越世纪传奇共赴未来新程——劳斯莱斯幻影百年盛典与中方共绘华章

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.