Microsoft 開發 AI 語音工具只需 3 秒樣本就能模仿目標說話

2023-01-11

Published by

唐美鳳

除了近期大熱的 ChatGPT，Microsoft 還有其他具潛質的人工智能項目，當中包括文字生成語音模型 VALL-E，它的最大賣點是只要輸入目標網址和 3 秒的聲音樣本，模型就能製作出相似度極高的語音內容。現時 VALL-E 還處於初期訓練階段，但開發團隊提供的英語語音訓練資料已達 6 萬小時。

Microsoft 的開發團隊表示利用現有神經音檔編解碼模型的離散碼，去訓練 VALL-E 神經編解碼器語言模型，將文字轉語音視作條件式語言建立模型任務。VALL-E 會根據文字輸入和 3 秒的語音提示，然後產生跟文字和目標聲音相應的離散音檔編解碼。

在語音自然度和相似度方面，Microsoft 指 VALL-E 的表現比現有的 SOTA 模型好，而且能保持情緒和聲音環境，不過還有需要改善的地方，例如部份單字發音不清晰，而且未能模仿帶有口音的聲音等。開發團隊認為 VALL-E 未來可以在各種語音合成方案直接使用，包括零樣本文字轉語音、語音編輯，或搭配 GPT-3 等人工智能模型去產生更多內容。

資料及圖片來源：arstechnica

unwire.hk Mewe 專頁： https://mewe.com/p/unwirehk