人工智能

Apple 語音轉錄 Speech API 有驚喜　速度較 OpenAI Whisper 快 2.2 倍

作者

藍骨
發佈日期

2025-06-20
閱讀時間

6分鐘
字體大小

Apple 在 AI 方面一直被認為落後競爭對手，但在小型模型方面原來有驚喜。最近有媒體測試 Apple 的全新 Speech 框架中 SpeechAnalyzer 和 SpeechTranscriber 模組，發現在語音轉錄速度方面大幅超越基於 OpenAI Whisper 的現有工具。

MacStories 編輯 John Voorhees 在報告中指出，他長期面對語音轉錄工具速度緩慢的困擾，特別是在製作 AppStories、NPC 和 Unwind 等 Podcast 節目時，需要為 YouTube 上傳字幕檔案。目前市面上大部分轉錄工具都基於 OpenAI 於 2022 年發布的開源語音轉文字模型 Whisper，雖然成本低廉（每百萬 token 不足 1 美分），但速度較慢。

為了測試 Apple 新技術的效能，Voorhees 的兒子 Finn 開發了一個名為 Yap 的命令行工具，該工具利用 SpeechAnalyzer 和 SpeechTranscriber 處理音頻和影片檔案，並輸出 SRT 和 TXT 格式的轉錄檔案。Finn 表示開發該工具僅需約 10 分鐘時間。

測試採用了 AppStories 第 441 集的 7GB 4K 影片，長度約 34 分鐘。Voorhees 分別使用 Yap、VidCap 和 MacWhisper（V2 Large 和 V3 Turbo 模型）進行轉錄測試，結果顯示 Apple 新技術的明顯優勢。

具體測試結果顯示，Yap 僅需 45 秒完成轉錄，MacWhisper Large V3 Turbo 模型需要 1 分 41 秒，VidCap 需要 1 分 55 秒，而 MacWhisper Large V2 模型則需要 3 分 55 秒。Yap 的表現比速度最快的競爭對手快 2.2 倍。

在轉錄準確性方面，三種工具的表現相近，都在處理姓氏和「AppStories」等專有名詞時遇到相似困難，語言模型傾向將這些詞彙分拆為兩個單詞而非駝峰式命名。Voorhees 表示這些問題可透過尋找和取代規則輕鬆修正。

Voorhees 強調速度提升的重要性，雖然 45 秒與 1 分 41 秒的差異看似微小，但對於需要處理大量影片內容的用戶而言，累積效果顯著。他以處理 Apple Developer 在 YouTube 發布的數小時影片為例，指出 2.2 倍的速度提升將節省大量時間。

SpeechAnalyzer 和 SpeechTranscriber 技術採用本機處理方式，無需依賴雲端服務，可在 iPhone、iPad、Mac 和 Vision Pro 等 Apple 裝置上運行。這種設計不僅提升了處理速度，也確保了用戶數據的私隱保護。

Voorhees 預測，Apple 的新語音轉錄技術將取代 Whisper 成為 Apple 平台上轉錄應用程式的預設模型。他認為這項技術在轉錄速度方面的重大突破，對於需要為 YouTube 影片製作字幕、為學校講座生成轉錄文本等用途的用戶而言，將帶來顯著改善。

該技術目前僅在 Apple 的 OS 測試版本中提供，開發者需要擁有 Apple 開發者帳戶才能存取。Voorhees 建議有興趣測試的用戶安裝 macOS Tahoe 測試版，並從 GitHub 頁面安裝 Yap 工具。

來源：MacStories