除了近期大熱的 ChatGPT,Microsoft 還有其他具潛質的人工智能項目,當中包括文字生成語音模型 VALL-E,它的最大賣點是只要輸入目標網址和 3 秒的聲音樣本,模型就能製作出相似度極高的語音內容。現時 VALL-E 還處於初期訓練階段,但開發團隊提供的英語語音訓練資料已達 6 萬小時。
Microsoft 的開發團隊表示利用現有神經音檔編解碼模型的離散碼,去訓練 VALL-E 神經編解碼器語言模型,將文字轉語音視作條件式語言建立模型任務。VALL-E 會根據文字輸入和 3 秒的語音提示,然後產生跟文字和目標聲音相應的離散音檔編解碼。
在語音自然度和相似度方面,Microsoft 指 VALL-E 的表現比現有的 SOTA 模型好,而且能保持情緒和聲音環境,不過還有需要改善的地方,例如部份單字發音不清晰,而且未能模仿帶有口音的聲音等。開發團隊認為 VALL-E 未來可以在各種語音合成方案直接使用,包括零樣本文字轉語音、語音編輯,或搭配 GPT-3 等人工智能模型去產生更多內容。
資料及圖片來源:arstechnica
unwire.hk Mewe 專頁: https://mewe.com/p/unwirehk
相關文章:
【教學】ChatGPT 視像隔空教你養魚 用相機攝取現場環境 實時 AI 回應用家問題 【教學】MacWhisper 語音轉錄文字 AI 工具 本地 AI 模型處理 + 支援廣東話、多國語言 + 輸出字幕檔 黃仁勳焗爐拿出 NVIDIA 新 AI 電腦 售價港幣二千有找盼吸引小企業