自從有了 AI,「錄音轉文字」已成為不少人的效率神器,能把音訊瞬間變為可搜尋、可編輯的文字,省卻以往枯燥重複聽寫的時間。雖然市面上有不少專門工具,但大多收費昂貴且功能單一;相比之下,Google Gemini 不單提供轉錄服務,更能即時一站式幫你整理重點。無論是想整理課堂筆記的學生、需要會議記錄的上班族,甚至是趕製字幕的創作者,只要將錄音傳給 Gemini,就能在一個對話視窗搞掂轉文字與後續文書處理,既實用又方便。

▲ 只需幾秒便可以輸出 30 分鐘錄音的逐字稿,更可以分到講者身份
Gemini 語音轉文字操作流程 網頁版同App版一樣容易
網頁版操作
在 Gemini 使用這個功能,操作過程相當直覺。打開 Gemini 介面,在對話框點選上傳檔案圖示,直接將錄音檔拖進去即可。目前支援格式包括 MP3、M4A 及 WAV。上傳完成後,可以透過特定指令要求 AI 處理內容。例如輸入:「請幫我將這段音檔轉成繁體中文逐字稿,保留原文內容,並進行適當分段。」

▲ 打開 Gemini 界面,選擇「+」,然後選取你想檔案,又或者可以直接從桌面拖進去
App 版操作
如果你習慣在手機 App 操作,步驟其實跟網頁版大同小異,只要在對話框點擊「+」號圖示即可選取檔案。不過 iPhone 用家要留意一點,如果你習慣用 iOS 內置的「錄音機」錄音,記得要先將檔案「儲存到檔案(Files)」,然後才能在 Gemini 裡面選取,因為 Gemini 不能直接拿到「錄音機」的錄音檔。

▲ 在「錄音機」,選取左上角的「選擇」,選擇你想轉錄的錄音到「檔案」

▲ 把錄音儲存到檔案

▲選取到你想放置的位置,再儲存

▲ 在電話 Gemini 界面都一樣,選擇「+」,然後選取你想檔案
Gemini 聽寫能力強勁
事實上,Gemini 的聽寫能力強勁得令人驚喜。筆者早前在一個大型會場實測,全程只靠 iPhone 錄取現場喇叭的聲音當時距離有 5 至 6 排座位,當時與喇叭有 5-6 排座位,收音環境其實一般,結果生成的文字依然非常準確,即使指令中沒特別要求分段,AI 亦懂得在合適位置自動斷句,更能分清誰是發言者,閱讀感極佳。更令人佩服的是,筆者曾嘗試錄下一段帶有外國口音的廣東話訪問,Gemini 同樣能準確還原內容,辨識力極高,完全能應付複雜的錄音環境。

為什麼選擇 Gemini?同類型 AI 工具比較
市面上雖然有很多 AI 錄音轉文字工具,但 Gemini 有幾個地方更方便。很多記者愛用 Good Tape,雖然其準確度同樣出色,但 Good Tape 的免費版往往要排隊輪候(Waitlist),想快就要付費,而且預設生成書面語,沒法改變設定;而 Gemini 則是即傳即轉,完全無需等待。以前大家常用的 Buzz 來說,Buzz 雖然免費,但你要先下載軟體,還要看你電腦跑得夠不夠快;Gemini 則是全雲端運算,你的電腦再舊、性能再差,速度也一樣飛快。
而且 Gemini 之所以好用,是因為它可以「追問」。當它打完逐字稿後,你可以直接問它:「剛才那場會,老細最後決定了什麼?」或者「幫我把重點列成五點」。
收費限制與實測上限
關於大家最關心的收費與檔案限制,目前 Gemini 採取免費版與付費版並行的策略,不過有一點要留意,香港暫時未有得直接訂閱付費版,希望官方盡快會有消息。

▲ 免費版的 Gemini 未能處理超過 10 分鐘的錄音
實測發現,免費版處理 7 分鐘內的短錄音非常完美,但如果音檔超過 10 分鐘,AI 往往會因為內容太多而無法處理全文,或者只能給出簡短摘要。至於付費版(Gemini Advanced / AI Pro)用戶,單一檔案上傳上限為 100MB。筆者正使用付費的 Gemini 帳戶實測,發現它可以輕鬆處理約 1 小時長的錄音,一次過輸出 1.5 萬字以上的繁體逐字稿。免費版用戶雖然同樣可以上傳 100MB 內的檔案,但因為後台處理容量較小,長錄音就會顯得心有餘而力不足。
