Apple 在 AI 方面一直被認為落後競爭對手,但在小型模型方面原來有驚喜。最近有媒體測試 Apple 的全新 Speech 框架中 SpeechAnalyzer 和 SpeechTranscriber 模組,發現在語音轉錄速度方面大幅超越基於 OpenAI Whisper 的現有工具。
MacStories 編輯 John Voorhees 在報告中指出,他長期面對語音轉錄工具速度緩慢的困擾,特別是在製作 AppStories、NPC 和 Unwind 等 Podcast 節目時,需要為 YouTube 上傳字幕檔案。目前市面上大部分轉錄工具都基於 OpenAI 於 2022 年發布的開源語音轉文字模型 Whisper,雖然成本低廉(每百萬 token 不足 1 美分),但速度較慢。
為了測試 Apple 新技術的效能,Voorhees 的兒子 Finn 開發了一個名為 Yap 的命令行工具,該工具利用 SpeechAnalyzer 和 SpeechTranscriber 處理音頻和影片檔案,並輸出 SRT 和 TXT 格式的轉錄檔案。Finn 表示開發該工具僅需約 10 分鐘時間。
測試採用了 AppStories 第 441 集的 7GB 4K 影片,長度約 34 分鐘。Voorhees 分別使用 Yap、VidCap 和 MacWhisper(V2 Large 和 V3 Turbo 模型)進行轉錄測試,結果顯示 Apple 新技術的明顯優勢。
具體測試結果顯示,Yap 僅需 45 秒完成轉錄,MacWhisper Large V3 Turbo 模型需要 1 分 41 秒,VidCap 需要 1 分 55 秒,而 MacWhisper Large V2 模型則需要 3 分 55 秒。Yap 的表現比速度最快的競爭對手快 2.2 倍。
在轉錄準確性方面,三種工具的表現相近,都在處理姓氏和「AppStories」等專有名詞時遇到相似困難,語言模型傾向將這些詞彙分拆為兩個單詞而非駝峰式命名。Voorhees 表示這些問題可透過尋找和取代規則輕鬆修正。
Voorhees 強調速度提升的重要性,雖然 45 秒與 1 分 41 秒的差異看似微小,但對於需要處理大量影片內容的用戶而言,累積效果顯著。他以處理 Apple Developer 在 YouTube 發布的數小時影片為例,指出 2.2 倍的速度提升將節省大量時間。
SpeechAnalyzer 和 SpeechTranscriber 技術採用本機處理方式,無需依賴雲端服務,可在 iPhone、iPad、Mac 和 Vision Pro 等 Apple 裝置上運行。這種設計不僅提升了處理速度,也確保了用戶數據的私隱保護。
Voorhees 預測,Apple 的新語音轉錄技術將取代 Whisper 成為 Apple 平台上轉錄應用程式的預設模型。他認為這項技術在轉錄速度方面的重大突破,對於需要為 YouTube 影片製作字幕、為學校講座生成轉錄文本等用途的用戶而言,將帶來顯著改善。
該技術目前僅在 Apple 的 OS 測試版本中提供,開發者需要擁有 Apple 開發者帳戶才能存取。Voorhees 建議有興趣測試的用戶安裝 macOS Tahoe 測試版,並從 GitHub 頁面安裝 Yap 工具。
來源:MacStories
相關文章:
【評測】iOS 26 beta 1 初步評測 玻璃效果吸引 + 舊機流暢度一般 Apple 擬爭奪美國 F1 播映權 期望以體育內容突破串流競爭困局 白宮批 Apple 遷出中國進度緩慢 明明有AI, 新技術不知為何 仍深度依賴中國
分享到 :
最新影片
