AWS 於 2025 年 12 月初宣佈推出新一代語音模型 Amazon Nova 2 Sonic,當中多項表現問鼎一眾語音 AI 模型,實力不容忽視。AWS 最近更發佈 Nova 2 Sonic 建立 AI 語音助理的示範影片,展示該模型多項功能,例如同時輸出語音與文字,用戶能同時獲得語音及文字回答;非同步工具調用 (asynchronous tool calling) ,支援多輪對話中無縫執行多項任務;流暢處理用戶插話等等。從影片可見,其語音理解能力及應付複雜任務的能力不亞於受專業訓練的客服助理,絕對為 AI 客服需求殷切的行業帶來喜訊。
Nova 2 Sonic 聲音自然獲市場歡迎 多項關鍵指標領先其他同期語音模型
Nova 2 Sonic 支援多種語言,涵蓋男女聲,具備母語表達力、自然的對答能力,並可以無縫處理對話被打斷的情景。人類偏好評估顯示,聽眾在整體聆聽體驗上多數偏好 Nova 2 Sonic 的聲線。下圖比較 Nova 2 Sonic 模型與 GPT 及 Gemini 同期的語音模型,結果顯示用戶對多種語言的男女聲都較偏好 Nova 2 Sonic。

Nova 2 Sonic 亦在多項關鍵指標勝過其他模型。語音模型最根本是要準確理解語音內容,Nova 2 Sonic 在語音辨識準確度 (ASR Accuracy) 一環取得高達 93.5 分,拋離其他對手。另以語音推理能力指標 Big Bench Audio 為例,Nova 2 Sonic 亦以 87.0 分佔優。

能處理複雜語音場景 無縫對接多個電話通訊平台
Nova 2 Sonic 的底層語音辨識能力大幅提升。該模型現在能以更精確的準確度處理字母數字輸入、短語句及 8KHz 電話語音輸入。新一代模型亦更擅於處理不同口音和背景噪音,以示範影片為例,AI 語音模型能準確辨識非母語者的英語口音。
模型亦已支援英語、法語、意大利語、德語、西班牙語、葡萄牙語和印地語,並陸續支援更多語言。模型又支援以同一把聲音支援多語夾雜,自然處理混合語言的句子。
模型對多模態支援,令用者可選擇以文字或語音對話,同時 AI 語音助理亦可同時以文字及語音回覆客戶,提升對話解決問題的效率。這對於使用者可能想說出某些請求並輸入其他資訊非常有用——例如快速問問題,但輸入複雜的地址或技術規格。
對話式 AI 應用需要跨越不同通訊管道運作。AI 語音助理除了常以網頁及手機程式為界面,很多時候亦以電話熱線服務客戶。有見及此,Nova 2 Sonic 現在已對接 Amazon Connect、Vonage、Twilio 和 Audiocodes 等媒體平台。
總結
Amazon Nova 2 Sonic 現時已對以下地區開放: 美國東部(北維珍尼亞州)、美國西部(俄勒岡州)及亞太(東京)AWS 區域。想探索及開始使用 Amazon Nova 2 Sonic 的用戶,可參閱 Amazon Nova Sonic 語音對語音模型編碼範例以了解更多。
分享到 :
最新影片