人工智能

教學：手機用 Google 最強離線 AI 斷網用到, 圖片語音辨識都得效能,答案準確度實測

作者

Vincent Ng
發佈日期

2026-04-13
閱讀時間

14分鐘
字體大小

上月底 Google Gemini 正式在香港開放使用，但始終需要連接網絡才能發揮作用。而 Google 最近推出的「Google AI Edge Gallery」就打破了此限制，可以「全離線運作」。簡單而言，此 App 直接利用電話的 CPU 和 GPU 運算，只要下載好 App 內的 AI 模型，毋須連網即可使用 AI，即使在沒網絡的高空仍能使用，並確保資料不會留下任何雲端紀錄。今次我們利用 iPhone 進行實測，看看這款離線 AI 表現如何，比起 Google Gemini 或者其他線上 AI 相差幾多。

▲ 由於是離線 AI，所以即使在飛行模式下亦能夠連作。

下載連結：

iOS : https://apps.apple.com/app/id6749645337

Android : https://play.google.com/store/apps/details?id=com.google.ai.edge.gallery

離線 AI 好處：100% 私隱保障

除了能在突然失去網絡連線的環境下繼續運作，離線 AI 的最大賣點便是提供私隱保障。由於所有運算過程都在電話本地處理，不會留下任何雲端紀錄或伺服器緩存，即使用家輸入的是機密文件或極度私人的相片，也不擔心資料會落在科技企業手上。

▲ Google AI Edge Gallery 提供「全離線運作」AI

界面介紹：暫時只提供英文介面

從 App Store 下載應用程式後，進入主頁會看見不同的功能。不過，用家需要留意 Google AI Edge Gallery 目前僅提供全英文的操作界面，對於習慣使用中文介面的一般用家而言，或具備一定的入門門檻。

▲ Google AI Edge Gallery 使用全英文的界面，對於一般用家也有些語言入門門檻

雖然是離線 AI，但都提供一般 AI 有的功能：例如 Ask Image，可以針對圖片內容進行提問與分析；Audio Scribe，負責語音轉錄與即時翻譯等等，下文會有詳盡介紹。

▲ 此 App 提供一般 AI 有的功能，包括描述圖片內容，聊天機械人等

下載前準備：為電話預留儲存空間

在正式開始前，最重要的步驟是為手機安裝 AI 模型，因為模型是驅動後續所有 AI 技能的關鍵。雖然模型檔案不算巨大，每個都是 2-3GB，但我們仍建議用家預留足夠儲存空間下載，亦建議在連接 Wi-Fi 的環境下操作，節省數據。

▲ App 內有不同的模型選擇，用家可以下載全部模型或者只下載一個

用家可根據需要下載多個不同的模型，並在不同場景下切換使用。應用程式提供的 Gemma 4 模型主要分為 E2B 與 E4B 兩個版本，E2B 檔案約 2.54GB，是目前最普及、最建議一般用家使用的版本，因為它在運算速度與準確度之間取得了良好的平衡，即使是中階手機也能流暢運行。至於使用 iPhone 15 Pro 系列或更新型號的 Pro 用家，則建議選用資料庫更齊全、邏輯更強的 E4B 模型。

▲ 以使用 Ask Image 這功能為例，在使用前可以選擇以上四種模型，只要下載了模型便可使用

主要功能一覽，實測能力去到邊：

1.）Agent Skills：

現代人其中一個煩惱便是設定密碼，每個帳戶都建議高難度的密碼，又希望密碼容易記得，有人會利用 AI 生成密碼，但如果用會連網的 AI ，便有洩漏機密資料的風險。Agent Skills 其中一個技能便是能協助生成高強度「記憶密碼」（Mnemonic Password）。我們實測輸入一個非常日常的指令：「幫我整一個馬會密碼，我主要買六合彩」。AI 之後便提取「六合彩」作為核心概念，並延伸出「獎金」與「幸運」等關聯主題，生成 8-16 位的強大密碼、創作出一段有趣的兩句記憶故事，最後計算密碼複雜度，產出如「L0t3rY!W1n」的密碼。重點是整個過程離線進行，不會留下任何雲端紀錄。

▲在離線環境下處理密碼生成等敏感任務會更安全，因為所有運算均不會經過網絡傳輸

事實上，「Agent」無疑是 2026 年 AI 業界最炙手可熱的關鍵字。與傳統單純對話的 AI 不同，Agent 的核心在於具備執行特定任務的能力，用家可以進入「Skills」選單，自行開啟不同的功能。除了密碼生成，還有專門用於生成 QR Code、計算文字雜湊值（calculate-hash）等實用工具。另外，用家可以開啟「mood-tracker」來記錄及追蹤每日情緒，或使用「interactive-map」查看特定地點的互動式地圖，要留意的是，雖然 AI 模型可以離線運作，但「interactive-map」仍要連接網絡才能使用，意味用家可以選擇使用多少網絡，在保障隱私與調用部分雲端資源之間取得平衡。

▲用家可以進入「 Skills」選單，自行開啟或管理不同的代理功能

▲「interactive-map」可就你的指令查看特定地點。雖然 AI 模型可以離線運作，但「interactive-map」仍要連接網絡才能使用

另外，目前離線 AI 的答案質素與雲端版本相比仍有進步空間，我們以最常用的 E2B 模型進行實測，當要求「提供一個在東京下北澤的購物指南」時，答案顯得空泛。AI 只能提供如「獨立設計師品牌」或「二手古著店」等廣泛的類別描述，未能具體列出真實的店舖名稱或詳細地址，反映離線模型受限於體積與數據量，在處理需要實時更新或極度細碎的資訊時，提供的資訊較為表面。

▲ 離線 AI 的答案質素與雲端版本相比仍有進步空間

2.）Ask Image 實測：認字能力強勁

試想像你在一間沒有中文菜單的小店，或者面對一張寫滿當地文字的指示牌。透過 Ask Image，用家只需拍攝並上傳照片，即使在斷網狀態下，Gemma 4 依然能發揮出色的 OCR 文字辨識能力，準確提取圖片中的資訊並進行翻譯。

我們實測拍攝一個電子產品包裝，圖中佈滿英文技術規格。離線狀態下的 AI 能迅速辨識出產品名稱，翻譯成易明的中文。例如，它能精確指出「Ergonomic shape design」代表符合人體工學的形狀設計，並將「Red light optical technology」翻譯為紅光光學技術，甚至連機身尺寸、DPI 段位及電池型號等細節也能逐一對應翻譯。這種準確度對於在海外購買電器、藥品或閱讀說明書非常有幫助，確保用家在無網絡的情況下也能看懂細節。雖然它對特定的文化角色辨認能力仍有進步空間，但對於日常文字處理，表現已非常可靠。

▲ 我們向 Ask Image 提供一個電子產品包裝

▲ 只需幾秒便可翻譯成易明的中文，測試電話為 iPhone 15 Pro max

3.）Audio Scribe：錄音轉文字但仍有局限

Audio Scribe 語音轉錄功能雖然提供了離線將語音轉成文字並翻譯的解決方案，在無網絡時具備應用潛力，但實測表現則未如理想。目前版本存在明顯局限，每次錄音上限大約只有 30 秒，且每一個錄音檔案只能上傳一次進行處理，無法在 App 內重複調用或進行後續編輯，對於需要處理多段對話的用家而言相對不便。

我們使用了效能較強的 E4B 模型進行實測，嘗試以廣東話錄音詢問：「我是一位素食者，請問有沒有拉麵推介？」。輸出結果顯示出離線 AI 與雲端版 Gemini 之間存在強烈對比。轉錄出的日文結果不僅未能準確捕捉「素食者」這個關鍵需求，語句中更參雜了一些與原意不符的生硬詞彙，翻譯質素並不理想。

▲ 我們使用了效能較強的 E4B 模型進行實測，翻譯質素並不理想，測試電話為 iPhone 15 Pro max

由於離線模型為了壓縮體積，在語音特徵的覆蓋面與語意理解深度上必然有所犧牲。因此，此功能目前僅適合用於極短句的緊急問路或簡單對話，若要進行長篇訪問或需要極高準確度的翻譯，現階段仍非首選工具。

4.）AI Chat 與 Thinking Mode：離線計劃行程可行嗎？

另一項核心功能是 AI Chat，我們特別測試了其中的「Thinking Mode」（思考模式），加強 AI 的推理邏輯，看看能否應付邏輯推理測試。

問題：

「龍門鎮中的每一個人都是亞華的親戚，亞華只有一個兒子，銘希在龍門鎮裡生活，志南是亞華的丈夫。由此可推論：

A：銘希是亞華的女兒。

B：亞華生活在龍門鎮裡。

C：銘希是亞華的親戚。

D：志南生活在龍門鎮裡。」

正確答案是 C，因為短文第三句指出銘希在龍門鎮裡生活，而從第一句可知道銘希是亞華的親戚。

▲ 思考模式會顯示它的思考過程，輸出答案的時間亦較久

這題對於線上 AI 來說不難，但對細規模的離線模型會是挑戰。最後用了 6.1 分鐘 本地運算與推理過程，最終成功排除了干擾選項，精準給出答案 C。

▲ 最後用了 6.1 分鐘 成功排除干擾選項，精準給出答案 C，測試電話為 iPhone 15 Pro max

總結

雖然離線模型在知識庫的廣度與精準度上，與雲端 AI 仍有明顯距離，但勝在運作穩定、反應迅速且完全免數據。作為一個不連網的「隨身保險」工具，Google AI Edge Gallery 確實有存在的價值。

離線 AI 好處：100% 私隱保障

界面介紹：暫時只提供英文介面

下載前準備：為電話預留儲存空間

主要功能一覽，實測能力去到邊：

1.）Agent Skills：

2.）Ask Image 實測：認字能力強勁

3.）Audio Scribe：錄音轉文字 但仍有局限

4.）AI Chat 與 Thinking Mode：離線計劃行程可行嗎？

總結

3.）Audio Scribe：錄音轉文字但仍有局限