PrismML 於 3 月尾發表全球首款商用 1 位元大型語言模型 Bonsai 8B。這款擁有 82 億個參數模型,記憶體佔用僅 1.15 GB,比同規模 16 位元全精度模型縮小 14 倍,能直接在 iPhone 17 Pro 以每秒約 40 個 Token 速度運行,徹底打破頂尖 AI 只能活在雲端局面。

什麼是 1 位元模型?
傳統基於 Transformer 架構 AI 模型,以 16 位元或 32 位元浮點數表示每個權重,帶來龐大儲存空間與算力需求。Bonsai 8B 採用革命性 1 位元架構,每個權重僅以 {-1, +1} 兩個值表示,配合分組共享縮放因子(scale factor)維持模型表現。Embedding 層、注意力層、MLP 層與 LM head 全部採用 1 位元設計,沒有任何更高精度「逃生艙」,是真正端對端 1 位元模型,橫跨 82 億個參數。

▲ PrismML 商用 1 位元大型語言模型 Bonsai 8B
1 位元網路研究其實有歷史脈絡,2024 年「The Era of 1-bit LLMs」論文(即 BitNet b1.58)確立 1.58 位元設計方向;Microsoft 亦於 2025 年推出開源 BitNet b1.58 2B4T,是規模較小先行者。PrismML 從 Caltech 研究團隊孵化而生,花費數年開發出必要數學理論,終能在壓縮神經網路同時保留其推理能力。

▲ 1-bit Bonsai 8B 與同參數級別模型的「智能密度」(每 GB 效能)對比

▲ 1-bit Bonsai 8B 的檔案大小僅為 1.15 GB,而其他同級 7B 至 9B 參數模型的體積普遍落在 14GB 至 18GB 之間

▲1-bit Bonsai 4B 與 1-bit Bonsai 1.7B。兩者在維持同尺寸領先準確率的同時,均展現了卓越的吞吐量與能源效率
效能表現令人矚目
根據 PrismML 官方公布的最新測試數據,Bonsai 8B 在各類裝置上的表現均展現了顯著的突破。這款模型體積僅為 1.15 GB,與具備同等性能的其他模型相比,縮減了約 14 倍之多。這種輕量化的特性直接反映在邊緣運算硬體的能源效率上,使其能效提升達 4 至 5 倍。在實際運行速度方面,Bonsai 8B 在 iPhone 17 Pro 與 iPhone 17 Pro Max 上分別能達到每秒 40 個與 44 個 Token 的處理速度;對比之下,同一台 iPhone 運行 16 位元的 1B 模型僅有每秒 23 個 Token,而標準的 16 位元 8B 模型甚至完全無法在任何 iPhone 上運作。

▲ 1-bit Bonsai 8B 的體積僅為 1.15 GB,小巧得足以載入 iPhone 17 Pro,並以每秒 40 tokens 的速度流暢運行
除了行動裝置,Bonsai 8B 在高效能硬體上的表現同樣優異。M4 Pro Mac 的處理速度可達每秒 131 個 Token,而配備 RTX 4090 的系統更衝上每秒 368 個 Token。在追求效能的同時,功耗控制也極其精準,M4 Pro 與 iPhone 17 Pro Max 的每秒能耗分別僅為 0.074 毫瓦時與 0.068 毫瓦時。


▲ 在 M4 Pro Mac 上運行1-bit Bonsai 8B ,模擬了 50 項工單摘要與分配任務;1-bit Bonsai 8B 在相同時間內完成了全部 50 項,而標準 16-bit 8B 模型僅完成 6 項
在長期智能體任務測試中,Bonsai 8B 的優勢更為直觀。以模擬 50 個工單的摘要與分配任務為例,1 位元的 Bonsai 8B 憑藉卓越的記憶體管理能力,能在相同視窗內順利完成全部 50 個工單,而標準 16 位元 8B 模型僅能處理其中的 6 個。這種高吞吐量與低記憶體佔用的結合,不僅大幅提升了系統反應速度,更實質地擴張了智能體在處理繁重工作量時的執行能力。

▲ 體積縮小 14 倍離線更省電
三款型號同步開放
除 Bonsai 8B 外,PrismML 同步發布 1 位元 Bonsai 4B 及 1 位元 Bonsai 1.7B 兩款較小型號,三者均在維持領先準確度同時,提供強勁吞吐量與能源效率。三款模型共同大幅推移「智慧與體積」Pareto 最優邊界,在同類 20 款主流指令模型橫向比較中,建立起全新行業標準。
Bonsai 三款模型現已在 Hugging Face 以 Apache 2.0 授權開放下載,支援 Apple 裝置(Mac、iPhone、iPad)MLX 格式,以及 NVIDIA GPU llama.cpp CUDA,開發者可將其部署至各類邊緣裝置與本地環境。從 DeepSeek 掀起高效率模型風潮,到 PrismML 1 位元 LLM,AI 產業正在經歷一場典範轉移,「越大越好」線性邏輯受到挑戰,取而代之是對「智慧密度」追求。
資料來源:PrismML
