ITBear旗下自媒体矩阵:

前OpenAI研究员卡帕西开源nanochat:百元内训练简易版ChatGPT,12小时性能超GPT-2

   时间:2025-10-14 15:07:10 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

前特斯拉人工智能与自动驾驶视觉总监、OpenAI研究员安德烈·卡帕西近日在GitHub平台开源了一款名为nanochat的极简AI模型训练框架,宣称开发者仅需不到100美元(约合人民币711.5元)即可训练出具备基础对话能力的“简易版ChatGPT”。该项目上线后迅速获得开发者社区关注,短短数日内在GitHub收获5600余个星标。

与传统大模型训练方案不同,nanochat采用全栈式设计,整合了从数据预处理到模型部署的全流程工具。卡帕西在技术文档中强调,该框架通过精简代码库(仅8304行)和优化训练流程,实现了对计算资源的高效利用。其核心架构借鉴了meta的Llama模型,同时融入了modded-nanoGPT的改进方案,在保持轻量化的同时提升了训练效率。

根据开发者实测数据,nanochat在指令微调阶段仅需3小时51分钟即可完成基础训练,总成本控制在92.4美元(约合人民币657.4元)。卡帕西在社交媒体调侃称:“剩余的8美元足够买份冰淇淋庆祝。”不过他同时指出,当前版本对强化学习的支持尚不完善,相关训练时间未计入总耗时。

在性能表现方面,nanochat展现出超预期的潜力。实验数据显示,经过12小时训练的模型在CORE评估指标上已超越GPT-2;当训练投入提升至约1000美元(约合人民币7114.7元)并持续41.6小时后,模型在基础数学、编程问题解决及选择题测试中的准确率显著提升。具体到细分任务,深度为30的模型训练24小时后,在MMLU语言理解基准测试中得分超40分,ARC-Easy常识推理任务准确率超70%,GSM8K数学推理测试得分超20分。

该框架的技术亮点体现在多个创新环节:采用Rust语言重新实现训练分词器,提升处理效率;基于FineWeb数据集进行Transformer模型预训练,并通过多维度指标评估;引入SmolTalk对话数据集进行中期训练,增强模型交互能力;支持指令微调及在GSM8K数据集上的强化学习(可选GRPO算法);通过KV缓存引擎实现高效推理,兼容CLI命令行及网页交互界面;最终生成包含游戏化评估的Markdown报告。

在社交媒体展示的对话案例中,基础版nanochat已能完成流畅对话及诗歌创作任务。开发者社区对此反应热烈,有用户评价称“该项目为AI技术平民化提供了可行路径”,更有技术爱好者制作了交互式代码图谱,帮助开发者更直观地理解框架结构。卡帕西在回复评论时透露,团队正持续优化模型性能,未来可能通过社区协作进一步降低训练门槛。

业内人士分析,nanochat的价值不仅在于其低成本特性,更在于它验证了“小而精”模型的开发潜力。尽管当前性能与商用大模型存在差距,但其展现的性价比优势为教育、科研等资源有限场景提供了新的解决方案。随着开源社区的持续完善,这类轻量化框架或将成为推动AI技术普及的重要力量。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version