YouTube 頻道 Fully Buffered 近日發布一項極端硬件測試,利用一台 20 年前 Intel Pentium 4 電腦成功在本機執行大型語言模型(LLM),並將這台老牌裝置封為「NetBurstGPT」。雖然 AI 最終成功給出回應,但回答一個簡單問題竟花費接近 33 分鐘,過程緩慢得令人驚訝。

古董 CPU 規格與配置
今次測試主角為 Intel Pentium 4 641 處理器,採用 Cedar Mill 核心,2006 年以 65nm 製程推出,具備 3.2GHz 時脈、2MB L2 快取,並支援 Hyper-Threading,TDP 為 65W。主機板選用 ASUS P5W DH Deluxe,搭配 Intel 975X 晶片組,記憶體則裝有 4 條 2GB A-Data PC2-6400 CL5 DDR2-800,合共 8GB。


Fully Buffered 特別強調,這顆 CPU 支援 EM64T 64 位元指令集,是安裝 Windows 10 Pro 64 位元及現代 AI 工具關鍵條件。由於並非所有 Pentium 4 都具備此功能,只有後期版本才支援執行相關軟件。

測試首關出師不利,由於 LM Studio 官方要求 Windows x64 版本需支援 AVX2 指令集,而 Pentium 4 完全欠缺此功能,導致執行模型時直接報錯。其後轉用 Ollama 出現轉機,皆因 Ollama 在 v0.1.21 版本加入對無 AVX 指令集環境支援,令舊款 CPU 或虛擬化環境均可運作。
Fully Buffered 最終選用 Meta 旗下 Llama 3.2 3B 輕量文字模型進行測試。整個模型大小約 2GB,剛好能載入 8GB 記憶體內存取。

找一個答案耗時 33 分鐘
Fully Buffered 向模型輸入一個簡單問題:「What’s a Pentium 4?」,CPU 隨即以 100% 滿載運作。工作管理員確認運算過程完全沒借助 GPU 加速。結果模型雖成功回答,但 prompt eval rate 僅約 0.27 tokens/s,eval rate 約 0.21 tokens/s,整個回答過程耗時接近 33 分鐘。若切換至 Linux Mint 環境效能更差,prompt eval rate 跌至約 0.15 tokens/s,eval rate 僅剩約 0.13 tokens/s。


超頻小試牛刀
Fully Buffered 隨後為 Pentium 4 進行超頻,將時脈由 3.2GHz 拉升至 4.3GHz,記憶體速度提升至約 810MT/s。超頻後速度提升約 20%,prompt eval rate 升至約 0.36 tokens/s,eval rate 達約 0.33 tokens/s,對實際體驗改善有限。


與現代硬件巨大差距
Fully Buffered 以日常使用的 Intel Core i5-12,600K 作對比,同樣執行 Ollama 與 Llama 3.2 3B,速度約為 Pentium 4 的 200 倍;若改用 NVIDIA Titan V 顯示卡,效能差距更達 600 倍。這項差距完全符合預期,NetBurst 架構源自 1990 年代末設計理念,面對現代 AI 運算需求,早已成為歷史產物。Fully Buffered 亦指出,雖然未能充分利用 Hyper-Threading 兩條執行緒,可能受限於 NetBurst 架構瓶頸,但模型最終能成功執行,已相當令人驚嘆。

