人工智能

iPhone 暢順行 82 億參數模型 1 bit LLM Bonsai 8B 登場記憶體佔用僅 1.15 GB

作者

Vincent Ng
發佈日期

2026-04-10
閱讀時間

8分鐘
字體大小

PrismML 於 3 月尾發表全球首款商用 1 位元大型語言模型 Bonsai 8B。這款擁有 82 億個參數模型，記憶體佔用僅 1.15 GB，比同規模 16 位元全精度模型縮小 14 倍，能直接在 iPhone 17 Pro 以每秒約 40 個 Token 速度運行，徹底打破頂尖 AI 只能活在雲端局面。

什麼是 1 位元模型？

傳統基於 Transformer 架構 AI 模型，以 16 位元或 32 位元浮點數表示每個權重，帶來龐大儲存空間與算力需求。Bonsai 8B 採用革命性 1 位元架構，每個權重僅以 {-1, +1} 兩個值表示，配合分組共享縮放因子（scale factor）維持模型表現。Embedding 層、注意力層、MLP 層與 LM head 全部採用 1 位元設計，沒有任何更高精度「逃生艙」，是真正端對端 1 位元模型，橫跨 82 億個參數。

▲ PrismML 商用 1 位元大型語言模型 Bonsai 8B

1 位元網路研究其實有歷史脈絡，2024 年「The Era of 1-bit LLMs」論文（即 BitNet b1.58）確立 1.58 位元設計方向；Microsoft 亦於 2025 年推出開源 BitNet b1.58 2B4T，是規模較小先行者。PrismML 從 Caltech 研究團隊孵化而生，花費數年開發出必要數學理論，終能在壓縮神經網路同時保留其推理能力。

▲ 1-bit Bonsai 8B 與同參數級別模型的「智能密度」（每 GB 效能）對比

▲ 1-bit Bonsai 8B 的檔案大小僅為 1.15 GB，而其他同級 7B 至 9B 參數模型的體積普遍落在 14GB 至 18GB 之間

▲1-bit Bonsai 4B 與 1-bit Bonsai 1.7B。兩者在維持同尺寸領先準確率的同時，均展現了卓越的吞吐量與能源效率

效能表現令人矚目

根據 PrismML 官方公布的最新測試數據，Bonsai 8B 在各類裝置上的表現均展現了顯著的突破。這款模型體積僅為 1.15 GB，與具備同等性能的其他模型相比，縮減了約 14 倍之多。這種輕量化的特性直接反映在邊緣運算硬體的能源效率上，使其能效提升達 4 至 5 倍。在實際運行速度方面，Bonsai 8B 在 iPhone 17 Pro 與 iPhone 17 Pro Max 上分別能達到每秒 40 個與 44 個 Token 的處理速度；對比之下，同一台 iPhone 運行 16 位元的 1B 模型僅有每秒 23 個 Token，而標準的 16 位元 8B 模型甚至完全無法在任何 iPhone 上運作。

▲ 1-bit Bonsai 8B 的體積僅為 1.15 GB，小巧得足以載入 iPhone 17 Pro，並以每秒 40 tokens 的速度流暢運行

除了行動裝置，Bonsai 8B 在高效能硬體上的表現同樣優異。M4 Pro Mac 的處理速度可達每秒 131 個 Token，而配備 RTX 4090 的系統更衝上每秒 368 個 Token。在追求效能的同時，功耗控制也極其精準，M4 Pro 與 iPhone 17 Pro Max 的每秒能耗分別僅為 0.074 毫瓦時與 0.068 毫瓦時。

▲ 在 M4 Pro Mac 上運行1-bit Bonsai 8B ，模擬了 50 項工單摘要與分配任務；1-bit Bonsai 8B 在相同時間內完成了全部 50 項，而標準 16-bit 8B 模型僅完成 6 項

在長期智能體任務測試中，Bonsai 8B 的優勢更為直觀。以模擬 50 個工單的摘要與分配任務為例，1 位元的 Bonsai 8B 憑藉卓越的記憶體管理能力，能在相同視窗內順利完成全部 50 個工單，而標準 16 位元 8B 模型僅能處理其中的 6 個。這種高吞吐量與低記憶體佔用的結合，不僅大幅提升了系統反應速度，更實質地擴張了智能體在處理繁重工作量時的執行能力。

▲ 體積縮小 14 倍離線更省電

三款型號同步開放

除 Bonsai 8B 外，PrismML 同步發布 1 位元 Bonsai 4B 及 1 位元 Bonsai 1.7B 兩款較小型號，三者均在維持領先準確度同時，提供強勁吞吐量與能源效率。三款模型共同大幅推移「智慧與體積」Pareto 最優邊界，在同類 20 款主流指令模型橫向比較中，建立起全新行業標準。

Bonsai 三款模型現已在 Hugging Face 以 Apache 2.0 授權開放下載，支援 Apple 裝置（Mac、iPhone、iPad）MLX 格式，以及 NVIDIA GPU llama.cpp CUDA，開發者可將其部署至各類邊緣裝置與本地環境。從 DeepSeek 掀起高效率模型風潮，到 PrismML 1 位元 LLM，AI 產業正在經歷一場典範轉移，「越大越好」線性邏輯受到挑戰，取而代之是對「智慧密度」追求。

資料來源：PrismML

iPhone 暢順行 82 億參數模型 1 bit LLM Bonsai 8B 登場記憶體佔用僅 1.15 GB

什麼是 1 位元模型？

效能表現令人矚目

三款型號同步開放

分享到 :

最新影片