人工智能

將 4 部 Mac Studio 組成 私人 AI 運算平台 統一記憶體 1.5TB 打低其他工作站

Published by
Lawton

工程師兼 YouTuber Jeff Geerling 利用 Apple 提供的四部 M3 Ultra Mac Studio,透過 macOS 26.2 新功能 RDMA over Thunderbolt 5 打造 AI 叢集。AI 叢集統記憶體總量達 1.5TB,成本約 40,000 美元(約港幣 312,000 元),Jeff 證實只要透過低延遲方式連接多部 Apple 電腦,即可大幅提升大型 AI 模型效能。

硬件配置同實機部署

Jeff 這次從 Apple 借來了兩部 Mac Studio 配備 32 核 CPU、512GB 統一記憶體同 8TB 儲存,另兩部則用 256GB 統一記憶體同 4TB 儲存。每部內置電源供應,方便機架佈線管理。Jeff Geerling 用 DeskPi TL1 迷你機架容納四機,機架側面開放設計令背面電源掣易於操作。

 

效能基準測試

M3 Ultra Mac Studio 在 Geekbench 6 多核測試中勝過 Dell Pro Max with GB10 同 Framework Desktop,倍精度 FP64 更達 1TFLOPS 以上,閒置功耗低於 10W。

 

AI 推論方面,單機跑 Llama 3.2 3B 達每秒 154.6 個 token,大型 Llama 3.1 70B 維持每秒 14.1 個 token,兩個測試性能都遠超對手。

在嘗試運行 DeepSeek R1 671B 超巨大模型時,其他兩個系統都未能正常運行,而 Mac Studio 叢集由於搭載 1.5TB 統一記憶體,所以能夠輕鬆應付。

 

RDMA over Thunderbolt 優勢

RDMA over Thunderbolt 架構在這個 AI 叢集中取得明顯優勢。在啟用 RDMA 後,記憶體存取延遲由 TCP 的 300 微秒降至 50 微秒以下,利用 Thunderbolt 連接,四機叢集有如單一巨型記憶體。使用 exo 系統測試 Qwen3 235B,四機達每秒 31.9 個 token,比 llama.cpp TCP 快逾倍;DeepSeek V3.1 更達每秒 32.5 個 token。

 

 

雖然 RDMA 表現出色,但在高負荷時偶現系統崩潰,Jeff Geerling 用 Ansible 工具快速重啟叢集。現時這項技術仍處發展階段,期待日後 Apple 可進一步強化 Thunderbolt 5 支援。

▲系統穩定性仍然是 exo 系統面對的問題

 

而且比對三個平台的價格,這次由 Mac Studio 組成的 AI 運算叢集平均每部需要 9,499 美元(約港幣 7.39 萬元),相比起其他兩個平台價錢高一截,也是值得留意的地方。

 

 

 

資料來源:Jeff Geerling Blog

 

Published by
Lawton