Categories: 人工智能

OpenAI 升級語音模型 API　可調整語調、辨認口音、準確度更高

2025-03-22

Published by

Oscar

Share

OpenAI 於稍早前推出新一代語音模型，透過 API 向全球開發者開放。此套模型包括語音轉文字及文字轉語音功能，提升語音代理的性能及應用範圍。新模型在語音識別準確度及可靠性上超越現有基準，特別適用於客戶服務及會議記錄等場景，另外今次亦開放新功能，首次允許開發者自定義語音風格。

革新語音技術

OpenAI 最新推出的 gpt-4o-transcribe 及 gpt-4o-mini-transcribe 模型，在語音轉文字方面顯著提升表現。根據多項基準測試，如 FLEURS，其詞錯率 (Word Error Rate, WER) 較原有的 Whisper 模型大幅下降，展現更佳的語言識別能力。這些模型針對口音、嘈雜環境及語速變化等挑戰改善，適用於客服中心及會議筆記轉錄等場景。

▲新模型辨識準確率更高

自定義語音體驗

新推出的 gpt-4o-mini-tts 文字轉語音模型，首次允許開發者指定語音表達方式，例如模仿「具有同理心的客服人員」。此功能開啟了從動態客服到創意故事講述等多樣化應用。據悉這種可控性讓開發者能創造更具個性化的語音體驗，惟目前僅限預設人工聲音，以確保安全。

未來展望

OpenAI 計劃持續提升語音模型的智能及準確性，並探索讓開發者引入自定義聲音的可能性，同時關注安全標準。此外公司正研究視頻等多模態技術，以實現更全面的代理體驗。

資料來源：OpenAI、OpenAI@YouTube

Published by

Oscar

12 個月前 ago

Recent Posts

人工智能

烏克蘭開放戰場數據予盟友訓練 AI　國防部長：每個技術周期都要勝過俄羅斯

12 小時前 ago

應用軟件

Adobe CEO 宣布卸任　帶領公司 SaaS 轉型後功成身退

13 小時前 ago

應用軟件

小工具重現 90 年代電視體驗　YouTube 化身有線電視節目表

14 小時前 ago

Tech-up Training

MacBook Neo 可模擬 Windows　Parallels Desktop 確認支援但未必順暢

15 小時前 ago

航拍

美國發明無人機捕捉器用雨傘吸引無人機注意力後摧毀

17 小時前 ago

MacBook Neo 史上最易維修只需 6 分鐘完成拆解鍵盤可獨立拆卸

18 小時前 ago

生活科技

Google 地圖迎來逾 10 年最大更新推出導航 3D 畫面兼整合 Gemini AI

18 小時前 ago

百度推手機「養龍蝦」自動完成叫外賣任務預計 3 月內推出iOS

19 小時前 ago

健康

侵入式腦機接口臨床應用領先 Elon Musk 中國博睿康獲准上市

21 小時前 ago