自從 ChatGPT 爆紅後,AI 已成為生活一部分。不過,越來越多科技玩家轉向「本地 AI」(Local AI),即是將 AI 模型直接下載到自己電腦執行,而不經雲端伺服器。這樣做除了能確保對話資料絕對私隱、不外洩給大企業外,最大好處是「無限制使用」,你不再需要擔心每小時對話額度,也不用受制於官方內容審查,只要電腦有電,就能無限次與 AI 溝通。
一鍵診斷:CanIRun.ai 如何運作?
要流暢運行本地 AI,最關鍵硬件並非 CPU,而是 GPU(顯示卡)及顯示卡記憶體(VRAM)。由於一般用戶很難判斷某個 AI 模型需要多少記憶體,網站CanIRun.ai 應運而生。這個網站利用最新 WebGPU 技術,能直接讀取電腦硬件配置,並即時運算出各個主流 AI 模型在電腦上的預期表現。


▲ 我們用 M5 Max 128GB Ram MacBook Pro 測試
使用教學:
只要進入網站 canirun.ai,網站便會直接讀取電腦硬件配置。注意由於 Firefox 和 Safari 對硬件偵測限制較多,強烈建議使用 Chrome 或 Edge 瀏覽器。進入網站後,系統會自動掃描並給出結果。我們使用了搭配 24GB RAM M4 晶片的 iMac,以及搭配 128GB RAM M5 Max 的 Macbook Pro 進行測試。

▲ 一進入網站,便會顯示 GPU、VRAM、Bandwidth 、Ram 和 Cores 的資訊

▲不過, 擁有 24GB RAM M4 iMac 進入網站後,只顯示 16GB VRAM
明明使用配備 128GB RAM 頂級 M5 Max MacBook Pro 測試,網站卻只顯示 36GB VRAM;又或者是 24GB RAM M4 iMac 進入網站後,只顯示 16GB VRAM。原因是瀏覽器的安全機制為防止惡意網頁耗盡所有資源,通常只准許網頁看到總記憶體固定比例的約 25% 至 33%。因此 36GB 只是瀏覽器敢放給網頁使用「上限」,而非 M5 Max 真實戰力。我們可以在網站上透過手動輸入 VRAM 數值來測試電腦的「極限戰力」,Mac 用家建議輸入總記憶體(RAM)的 70% 至 80%。例如 24GB RAM 的機款可嘗試選擇 18GB,128GB RAM 則可選擇 96GB,這樣得出的兼容性報告會更接近使用本地原生 App 時的真實情況。

▲ 24GB RAM 的機型可嘗試選擇 18GB,128GB RAM 則可選擇 98 GB
至於 Windows PC 用家,由於 RAM 與 VRAM 是物理分離的,網站通常能較準確地偵測到顯卡的「專用 GPU 記憶體」(例如 RTX 4060 的 8GB)。PC 用家若想核對數值,只需打開「工作管理員」(Task Manager),切換至「效能」分頁並選擇「GPU」,查看下方的「專用 GPU 記憶體」數值即可。若網站偵測有誤,PC 用家直接輸入該項數值進行測試便最為準確。
解讀測試結果

我們測試了 128 GB RAM M5 Max MacBook Pro, 標示為「Runs Great」(運作良好)的模型有 35 個,而有 10 個模型則表示為「Too Heavy」(運作不佳)。

▲結果顯示眾多 AI 本地模型,這部電腦的運行能力,當中 35 個能運作得非常良好,只有 10 個運作表現不理想(這些數值為預測估值)
詳細看下去每一個模型的運作預估結果。運行輕量化模型如 Qwen 3.5 0.8B 時,速度飆升至 798 tok/s,寫字速度快得肉眼難以追上。更重要是它能以 11 tok/s 速度穩定運作企業級模型 Llama 3.3 70B,具備處理複雜邏輯及長文分析實戰能力,證明大容量統一記憶體在本地 AI 領域絕對能力。

▲ 運行 Qwen 3.5 0.8B 時,速度飆升至 798 tok/s
![]()
▲ 運行Llama 3.3 70B時,能以 11 tok/s 速度穩定運作
iMac M4 測試結果

相比之下,入門進階級 iMac M4(24 GB RAM)表現亦非常不俗。雖然網站預設偵測為 16 GB 記憶體,但我們手動將 VRAM 調校至 18 GB,原本顯示「Too Heavy」模型數量就會即時減少,更能準確反映實力。在 M4 運行 Llama 3.2 1B 等輕量模型可達 156 tok/s,反應極其流暢;至於主流 Llama 3.1 8B,速度則維持在 19 tok/s 左右,對於日常摘要或創意寫作已非常足夠。

▲結果顯示眾多 AI 本地模型,有 11 個能在24 GB RAM M4 iMac 運作非常良好,9 個運作暢順
![]()
▲ M4 運行 Llama 3.2 1B 等輕量模型可達 156 tok/s,反應極其流暢
![]()
▲主流 Llama 3.1 8B,速度則維持在 19 tok/s 左右
進階功能:GPU 升級與指南
如果你正考慮更換電腦或升級顯示卡,CanIRun.ai 內建 GPU Comparison 功能非常實用。你可以將現有裝置與市面上頂級 GPU(如 RTX 5090 32GB)進行模擬對比。在對比介面中,你可以直觀看到升級後效能提升,例如原本跑不動重量級模型,在 32GB 甚至更高配置下,生成速度會增倍。這對於想在家中架設個人 AI 伺服器的讀者來說,是非常具參考價值的採購依據。

▲ 網站右上角有 compare 功能

▲進入 compare 頁面,左欄是你使用的 GPU,右欄便是你想比較的 GPU

▲您可以自由選擇比較目標
我們對比了 Apple M4 與 NVIDIA RTX 5090 兩者在 AI 運算上的階級差距,最核心的觀察點在於「生成速度」(tok/s)。在運行極輕量模型如 Qwen 3.5 0.8B 時,iMac 的 M4 晶片能提供約 156 tok/s 的流暢速度,表現已屬優異,但同場競技的 RTX 5090 卻跑出了驚人的 2509 tok/s,速度差距高達 16 倍。隨著模型規模提升至 9B 等級,M4 的速度降至每秒 17 個代幣,雖然仍能應付日常對話,但相比 RTX 5090 依然保持在 273 tok/s 的「秒回」水準。

▲ 結果一目了然
網站侷限與建議
雖然 CanIRun.ai 對新手來說非常方便,但目前仍存在硬件覆蓋不全問題,如部分專業顯示卡尚未收錄。另外,由於 Mac 統一記憶體優勢,有時網站判斷為「Too Heavy」模型,在實測中使用原生應用程式反而能順暢運行。如果你是 AI 入門者,CanIRun.ai 是一個極佳參考工具,但如果你擁有大容量 RAM Mac,請記得利用「手動輸入」功能模擬真實潛力。
分享到 :
最新影片