人工智能

OpenAI 升級語音模型 API　可調整語調、辨認口音、準確度更高

作者

Oscar
發佈日期

2025-03-22
閱讀時間

3分鐘
字體大小

OpenAI 於稍早前推出新一代語音模型，透過 API 向全球開發者開放。此套模型包括語音轉文字及文字轉語音功能，提升語音代理的性能及應用範圍。新模型在語音識別準確度及可靠性上超越現有基準，特別適用於客戶服務及會議記錄等場景，另外今次亦開放新功能，首次允許開發者自定義語音風格。

革新語音技術

OpenAI 最新推出的 gpt-4o-transcribe 及 gpt-4o-mini-transcribe 模型，在語音轉文字方面顯著提升表現。根據多項基準測試，如 FLEURS，其詞錯率 (Word Error Rate, WER) 較原有的 Whisper 模型大幅下降，展現更佳的語言識別能力。這些模型針對口音、嘈雜環境及語速變化等挑戰改善，適用於客服中心及會議筆記轉錄等場景。

▲新模型辨識準確率更高

自定義語音體驗

新推出的 gpt-4o-mini-tts 文字轉語音模型，首次允許開發者指定語音表達方式，例如模仿「具有同理心的客服人員」。此功能開啟了從動態客服到創意故事講述等多樣化應用。據悉這種可控性讓開發者能創造更具個性化的語音體驗，惟目前僅限預設人工聲音，以確保安全。

未來展望

OpenAI 計劃持續提升語音模型的智能及準確性，並探索讓開發者引入自定義聲音的可能性，同時關注安全標準。此外公司正研究視頻等多模態技術，以實現更全面的代理體驗。

資料來源：OpenAI、OpenAI@YouTube