人工智能

教學：一鍵偵測電腦運行本地 AI 模型能力還會推薦用邊個模型

作者

Vincent Ng
發佈日期

2026-03-19
閱讀時間

11分鐘
字體大小

自從 ChatGPT 爆紅後，AI 已成為生活一部分。不過，越來越多科技玩家轉向「本地 AI」（Local AI），即是將 AI 模型直接下載到自己電腦執行，而不經雲端伺服器。這樣做除了能確保對話資料絕對私隱、不外洩給大企業外，最大好處是「無限制使用」，你不再需要擔心每小時對話額度，也不用受制於官方內容審查，只要電腦有電，就能無限次與 AI 溝通。

網站連結：https://www.canirun.ai/

一鍵診斷：CanIRun.ai 如何運作？

要流暢運行本地 AI，最關鍵硬件並非 CPU，而是 GPU（顯示卡）及顯示卡記憶體（VRAM）。由於一般用戶很難判斷某個 AI 模型需要多少記憶體，網站CanIRun.ai 應運而生。這個網站利用最新 WebGPU 技術，能直接讀取電腦硬件配置，並即時運算出各個主流 AI 模型在電腦上的預期表現。

▲ 我們用 M5 Max 128GB Ram MacBook Pro 測試

使用教學：

只要進入網站 canirun.ai，網站便會直接讀取電腦硬件配置。注意由於 Firefox 和 Safari 對硬件偵測限制較多，強烈建議使用 Chrome 或 Edge 瀏覽器。進入網站後，系統會自動掃描並給出結果。我們使用了搭配 24GB RAM M4 晶片的 iMac，以及搭配 128GB RAM M5 Max 的 Macbook Pro 進行測試。

▲ 一進入網站，便會顯示 GPU、VRAM、Bandwidth 、Ram 和 Cores 的資訊

▲不過，擁有 24GB RAM M4 iMac 進入網站後，只顯示 16GB VRAM

明明使用配備 128GB RAM 頂級 M5 Max MacBook Pro 測試，網站卻只顯示 36GB VRAM；又或者是 24GB RAM M4 iMac 進入網站後，只顯示 16GB VRAM。原因是瀏覽器的安全機制為防止惡意網頁耗盡所有資源，通常只准許網頁看到總記憶體固定比例的約 25% 至 33%。因此 36GB 只是瀏覽器敢放給網頁使用「上限」，而非 M5 Max 真實戰力。我們可以在網站上透過手動輸入 VRAM 數值來測試電腦的「極限戰力」，Mac 用家建議輸入總記憶體（RAM）的 70% 至 80%。例如 24GB RAM 的機款可嘗試選擇 18GB，128GB RAM 則可選擇 96GB，這樣得出的兼容性報告會更接近使用本地原生 App 時的真實情況。

▲ 24GB RAM 的機型可嘗試選擇 18GB，128GB RAM 則可選擇 98 GB

至於 Windows PC 用家，由於 RAM 與 VRAM 是物理分離的，網站通常能較準確地偵測到顯卡的「專用 GPU 記憶體」（例如 RTX 4060 的 8GB）。PC 用家若想核對數值，只需打開「工作管理員」（Task Manager），切換至「效能」分頁並選擇「GPU」，查看下方的「專用 GPU 記憶體」數值即可。若網站偵測有誤，PC 用家直接輸入該項數值進行測試便最為準確。

解讀測試結果

我們測試了 128 GB RAM M5 Max MacBook Pro，標示為「Runs Great」（運作良好）的模型有 35 個，而有 10 個模型則表示為「Too Heavy」（運作不佳）。

▲結果顯示眾多 AI 本地模型，這部電腦的運行能力，當中 35 個能運作得非常良好，只有 10 個運作表現不理想（這些數值為預測估值）

詳細看下去每一個模型的運作預估結果。運行輕量化模型如 Qwen 3.5 0.8B 時，速度飆升至 798 tok/s，寫字速度快得肉眼難以追上。更重要是它能以 11 tok/s 速度穩定運作企業級模型 Llama 3.3 70B，具備處理複雜邏輯及長文分析實戰能力，證明大容量統一記憶體在本地 AI 領域絕對能力。

▲ 運行 Qwen 3.5 0.8B 時，速度飆升至 798 tok/s

▲ 運行Llama 3.3 70B時，能以 11 tok/s 速度穩定運作

iMac M4 測試結果

相比之下，入門進階級 iMac M4（24 GB RAM）表現亦非常不俗。雖然網站預設偵測為 16 GB 記憶體，但我們手動將 VRAM 調校至 18 GB，原本顯示「Too Heavy」模型數量就會即時減少，更能準確反映實力。在 M4 運行 Llama 3.2 1B 等輕量模型可達 156 tok/s，反應極其流暢；至於主流 Llama 3.1 8B，速度則維持在 19 tok/s 左右，對於日常摘要或創意寫作已非常足夠。

▲結果顯示眾多 AI 本地模型，有 11 個能在24 GB RAM M4 iMac 運作非常良好，9 個運作暢順

▲ M4 運行 Llama 3.2 1B 等輕量模型可達 156 tok/s，反應極其流暢

▲主流 Llama 3.1 8B，速度則維持在 19 tok/s 左右

進階功能：GPU 升級與指南

如果你正考慮更換電腦或升級顯示卡，CanIRun.ai 內建 GPU Comparison 功能非常實用。你可以將現有裝置與市面上頂級 GPU（如 RTX 5090 32GB）進行模擬對比。在對比介面中，你可以直觀看到升級後效能提升，例如原本跑不動重量級模型，在 32GB 甚至更高配置下，生成速度會增倍。這對於想在家中架設個人 AI 伺服器的讀者來說，是非常具參考價值的採購依據。

▲ 網站右上角有 compare 功能

▲進入 compare 頁面，左欄是你使用的 GPU，右欄便是你想比較的 GPU

▲您可以自由選擇比較目標

我們對比了 Apple M4 與 NVIDIA RTX 5090 兩者在 AI 運算上的階級差距，最核心的觀察點在於「生成速度」（tok/s）。在運行極輕量模型如 Qwen 3.5 0.8B 時，iMac 的 M4 晶片能提供約 156 tok/s 的流暢速度，表現已屬優異，但同場競技的 RTX 5090 卻跑出了驚人的 2509 tok/s，速度差距高達 16 倍。隨著模型規模提升至 9B 等級，M4 的速度降至每秒 17 個代幣，雖然仍能應付日常對話，但相比 RTX 5090 依然保持在 273 tok/s 的「秒回」水準。

▲ 結果一目了然

網站侷限與建議

雖然 CanIRun.ai 對新手來說非常方便，但目前仍存在硬件覆蓋不全問題，如部分專業顯示卡尚未收錄。另外，由於 Mac 統一記憶體優勢，有時網站判斷為「Too Heavy」模型，在實測中使用原生應用程式反而能順暢運行。如果你是 AI 入門者，CanIRun.ai 是一個極佳參考工具，但如果你擁有大容量 RAM Mac，請記得利用「手動輸入」功能模擬真實潛力。