OpenAI 於稍早前推出新一代語音模型,透過 API 向全球開發者開放。此套模型包括語音轉文字及文字轉語音功能,提升語音代理的性能及應用範圍。新模型在語音識別準確度及可靠性上超越現有基準,特別適用於客戶服務及會議記錄等場景,另外今次亦開放新功能,首次允許開發者自定義語音風格。
革新語音技術
OpenAI 最新推出的 gpt-4o-transcribe 及 gpt-4o-mini-transcribe 模型,在語音轉文字方面顯著提升表現。根據多項基準測試,如 FLEURS,其詞錯率 (Word Error Rate, WER) 較原有的 Whisper 模型大幅下降,展現更佳的語言識別能力。這些模型針對口音、嘈雜環境及語速變化等挑戰改善,適用於客服中心及會議筆記轉錄等場景。
▲新模型辨識準確率更高
自定義語音體驗
新推出的 gpt-4o-mini-tts 文字轉語音模型,首次允許開發者指定語音表達方式,例如模仿「具有同理心的客服人員」。此功能開啟了從動態客服到創意故事講述等多樣化應用。據悉這種可控性讓開發者能創造更具個性化的語音體驗,惟目前僅限預設人工聲音,以確保安全。
未來展望
OpenAI 計劃持續提升語音模型的智能及準確性,並探索讓開發者引入自定義聲音的可能性,同時關注安全標準。此外公司正研究視頻等多模態技術,以實現更全面的代理體驗。
資料來源:OpenAI、OpenAI@YouTube
相關文章:
【教學】AI 幫你製作動漫人物頭像 一個指令助你化身進擊的巨人 【教學】Safari 直接用 ChatGPT 搜尋 無須帳戶、一鍵連接 ChatGPT 【教學 + 實測】AI 女友陪你過聖誕新年 廣東話語音交流 0 障礙
分享到 :
最新影片
