近日,YouTube 科技频道 Fully Buffered 完成了一项极具震撼力的硬核测试:在奔腾 4 641 处理器(发布于 2006 年)上,成功运行了 meta 最新的 Llama 3.2 3B 大模型。
这一测试将现代人工智能技术与 20 年前的老旧硬件强行“对撞”,不仅展示了 LLM 运行的底层兼容性极限,更让不少网友感慨:摩尔定律在 AI 时代的进化速度,竟以这种方式实现了跨时空的“握手”。
硬件“考古”:极致配置跑通现代算力为了这场测试,Fully Buffered 团队还原了 2006 年主流发烧友的硬件天花板:
核心心脏: Intel 奔腾 4 641(3.2GHz,单核,2MB L2 缓存)。
内存阵列: 华硕 P5WDH Deluxe 主板搭配 4 条 2GB DDR2-800 内存,总容量达到 8GB。
软件环境: 针对老旧架构缺乏 AVX2 指令集的特性,团队专门调配了支持 No-AVX 模式 的推理环境。
慢动作推理:每秒 0.21 Token 的“长征”测试过程中,当系统向 Llama 3.2 3B 抛出问题“What's a Pentium 4?”时,这颗 20 年前的单核处理器立刻进入了“巅峰负荷”状态。
生成效率: 最终的生成速度仅为 0.21 Token/秒。
时间成本: 为了得到一个完整的回答,奔腾 4 连续满载运转了近 33 分钟。
在现代 AI 应用追求“毫秒级”响应的今天,33 分钟的等待无疑是“崩溃级”体验,但对于这颗诞生于 NetBurst 架构时代的处理器而言,这却是 AI 原理在古老硅片上一次跨越 20 年的“逻辑长跑”。
意义超越实用:证明了 AI 的兼容极限为什么要用这么古老的机器跑 AI?测试团队表示,这场测试并非为了探讨实用性,而是验证了两个关键边界:
No-AVX 指令集的生存空间: 现代大模型几乎都默认要求 AVX 指令集,但通过特定的推理模式,即使没有这些指令集,AI 依然能完成推理。
内存的“底座”作用: 30 亿参数的 3B 模型在 8GB DDR2 内存下的“刚好载入”,证明了只要内存足够,即便是极低算力的单核 CPU,依然能够支撑起现代 LLM 的运行,而非必须依赖顶级 GPU 算力。
尾声:NetBurst 架构的“AI 晚年”2006 年,Intel 奔腾 4 还在主频竞赛的狂热中执着于追求“高主频低效能”的 NetBurst 架构,当年的工程师们或许预见到未来会是处理器的时代,但恐怕做梦也想不到,他们设计的架构能在 20 年后以如此艰难的方式,理解并阐述自己的历史。
这次测试为 AI 硬件生态提供了一个极端的参考案例:算力决定响应速度,但指令集兼容性与内存支撑,才是大模型运行的底层生命线。 当奔腾 4 最终在屏幕上缓慢敲出对自己的描述时,这不仅仅是一次推理成功,更是计算机科学史上一场浪漫的告别仪式。











