教學:免費 AI 離線錄音轉文字App 廣東話口語轉書面語 同場比較 iPhone 內置轉錄功能

Published by
Vincent Ng

AI 語音轉文字技術(Speech-to-Text)日趨成熟,但不少用家仍擔心私隱問題,畢竟將錄音上傳到雲端處理始終存在風險。最近一款名為「Notely Voice」的開源應用程式在日本科技圈引起討論,主打「100% 離線處理」,內置 OpenAI 的 Whisper AI 模型,它支援處理廣東話,能自動將口語轉化為書面語。

 

無需連網轉錄文字

Notely Voice 支援 Android 與 iOS 系統,最大特色是無需連網。首次使用時會要求下載 AI 模型,之後所有語音辨識都在手機本地完成。即使在飛機上或訊號差的地方也能隨時記錄,省去手動輸入長篇備忘錄的麻煩。而且,市面上大多數語音轉文字 App 或網站,都需要將音訊上傳到伺服器進行雲端運算,對於涉及商業機密或個人隱私的會議來說,始終存在數據洩露的風險。Notely Voice 最強大的地方在於它是一款 100% 離線運作 的應用程式。所有的語音處理都在你的智慧型手機本地完成,無需連接網絡,確保你的錄音內容永遠不會離開設備,對於重視私隱的用家來說極具吸引力。

 

下載連結:

iOS :https://apps.apple.com/app/id6745835691

Android : https://play.google.com/store/apps/details?id=com.module.notelycompose.android

 

▲ 轉錄文字的應用層面很廣,例如圖中為影片內容轉成文字、日常會議做筆記等等

 

▲ 無需連網已轉錄文字

 

記者今次在 iOS 實試,以下是使用教學:

▲ 在 App Store 下載 Notely Voice

▲ 一進入 App 便是這個界面,按右上角的設定

 

▲ 在 Language and Region 選擇「Chinese」,以轉錄中文錄音,要留意是App沒有特別提供廣東話選擇,但經實測可以轉錄廣東話

▲ 在 Model Selection,下載轉錄所需的模型

▲ 有基礎功能的 「standard model」和較強的「Optimized model」。「Optimized model」需要額外下載約 465MB 數據,建議在 Wi-Fi 環境下操作。雖然模型體積較大,但換來的是極高辨識精準度與更強中英夾雜處理能力。

 

▲ 回到主頁,按右下角,開啟新筆記

 

▲在新筆記,按右下角「麥克風」錄音

▲ 錄音完畢後,按「有麥克風的筆記」圖示轉錄音到文宇

 

 

▲ 轉錄結果

實測:廣東話口語轉書面語效果

 

我們朗讀了 Unwire.HK Facebook 專頁,一篇有關 Google Gemini 在香港解禁的新聞內容進行測試,我們會使用進階版模型。

 

▲ 我們朗讀的文章

實測口述原文(廣東話):

「Google 旗下最強 AI Gemini 終於正式喺香港逐步解禁,逐步擴展 Gemini 體驗至全港所有用戶。以後用戶唔使再研究 VPN 或者外國電話卡,直接喺香港體驗 Google 最新 AI 技術。今次 Gemini 登陸香港,絕對會令港人喺日常生活多一個 AI 新選擇。」

 

轉錄結果分析

 

從實測截圖可見,Notely Voice 會將口語變成書面語,不是逐字記錄「喺」、「唔使」等口語詞彙,而是展現出極強語法轉換能力,自動將其修飾成正式書面語格式。例如文中「唔使再研究」會轉錄成「無需再研究」; 口語:「直接香港」轉錄成「直接香港」。

 

 

▲紅色圈為錯誤轉錄

 

不過,原句「逐步擴展」變成「逐步確診」、原句「Google 旗下」亦變成 「 Google 期下」。代表 AI 在處理環境雜音、讀音輕重或特定專有名詞時,仍可能出現錯誤。建議大家在轉錄後,仍要參考錄音檢整。

 

同場加映:與 iPhone 內置錄音轉錄功能對比

 

除了第三方 App,筆者亦嘗試使用 iPhone 內置的錄音 App 處理同一段錄音,發現兩者的處理方向截然不同。iPhone 內置功能走的是「忠實還原」路線,轉錄結果會保留原始的廣東話口語,例如「喺」和「唔使」都會直接輸出,這與 Notely Voice 自動書面語化的做法大相徑庭。但在辨識準繩度方面,iPhone 的語音辨識在一般詞彙上顯得更為穩定。

 

 

只是在處理英文專有名詞時則明顯較弱。例如文中出現的「Gemini」就被 iPhone 連續拼錯成「Gemalate」、「Geminite」甚至「Gemina」,相比之下,搭載 Whisper 模型的 Notely Voice 在處理技術品牌名稱上顯得精準許多。

 

總結

 

總結來說,如果你需要的是一份忠實還原現場的廣東話「逐字稿」,iPhone 內置功能無疑非常強大。但如果你希望錄音後能直接生成可用於發佈的文章、報告或筆記,Notely Voice 的自動修飾功能則能節省大量的編輯時間。

當然,用家亦可以採取另一種做法,就是先利用 iPhone 錄音獲取準確的口語文字,再將這些文字交給其他 AI(如 Gemini 或 ChatGPT)進行書面語轉換。雖然這種多一重步驟的做法在 Notely Voice 面前可能顯得有點「本末倒置」,但考慮到 iPhone 較低的幻覺率,這種「強強聯手」的方法也不失為一個選擇,最終還是交由用家根據個人偏好來決定。

Published by
Vincent Ng