人工智能

OpenAI 升級語音模型 API 可調整語調、辨認口音、準確度更高

Published by
Oscar

OpenAI 於稍早前推出新一代語音模型,透過 API 向全球開發者開放。此套模型包括語音轉文字及文字轉語音功能,提升語音代理的性能及應用範圍。新模型在語音識別準確度及可靠性上超越現有基準,特別適用於客戶服務及會議記錄等場景,另外今次亦開放新功能,首次允許開發者自定義語音風格。

 

革新語音技術

OpenAI 最新推出的 gpt-4o-transcribe 及 gpt-4o-mini-transcribe 模型,在語音轉文字方面顯著提升表現。根據多項基準測試,如 FLEURS,其詞錯率 (Word Error Rate, WER) 較原有的 Whisper 模型大幅下降,展現更佳的語言識別能力。這些模型針對口音、嘈雜環境及語速變化等挑戰改善,適用於客服中心及會議筆記轉錄等場景。

 

▲新模型辨識準確率更高

 

自定義語音體驗

新推出的 gpt-4o-mini-tts 文字轉語音模型,首次允許開發者指定語音表達方式,例如模仿「具有同理心的客服人員」。此功能開啟了從動態客服到創意故事講述等多樣化應用。據悉這種可控性讓開發者能創造更具個性化的語音體驗,惟目前僅限預設人工聲音,以確保安全。

 

未來展望

OpenAI 計劃持續提升語音模型的智能及準確性,並探索讓開發者引入自定義聲音的可能性,同時關注安全標準。此外公司正研究視頻等多模態技術,以實現更全面的代理體驗。

 

 

資料來源:OpenAIOpenAI@YouTube

 


相關文章:
  • 【教學】AI 幫你製作動漫人物頭像 一個指令助你化身進擊的巨人
  • 【教學】Safari 直接用 ChatGPT 搜尋 無須帳戶、一鍵連接 ChatGPT
  • 研究發現沉迷 ChatGPT 或導致寂寞 一般話題比私人話題更易引起依賴

  • Published by
    Oscar