除了近期大熱的 ChatGPT,Microsoft 還有其他具潛質的人工智能項目,當中包括文字生成語音模型 VALL-E,它的最大賣點是只要輸入目標網址和 3 秒的聲音樣本,模型就能製作出相似度極高的語音內容。現時 VALL-E 還處於初期訓練階段,但開發團隊提供的英語語音訓練資料已達 6 萬小時。
Microsoft 的開發團隊表示利用現有神經音檔編解碼模型的離散碼,去訓練 VALL-E 神經編解碼器語言模型,將文字轉語音視作條件式語言建立模型任務。VALL-E 會根據文字輸入和 3 秒的語音提示,然後產生跟文字和目標聲音相應的離散音檔編解碼。
在語音自然度和相似度方面,Microsoft 指 VALL-E 的表現比現有的 SOTA 模型好,而且能保持情緒和聲音環境,不過還有需要改善的地方,例如部份單字發音不清晰,而且未能模仿帶有口音的聲音等。開發團隊認為 VALL-E 未來可以在各種語音合成方案直接使用,包括零樣本文字轉語音、語音編輯,或搭配 GPT-3 等人工智能模型去產生更多內容。
資料及圖片來源:arstechnica
unwire.hk Mewe 專頁: https://mewe.com/p/unwirehk
相關文章:
【評測】Microsoft Surface Laptop 7 開箱評測 機身外觀漂亮 + 表現四平八穩 + 電量夠用一日 + 定價貴不抵玩 【教學】Stable Diffusion XL 手機輕鬆免費玩 無須強勁硬件 + 簡單語法可生成靚女圖片 【評測】Microsoft Surface Pro Gen 11 開箱評測 機身夠輕薄 + 可筆電平板兩用 + 寶藍色機身極吸引 + 定價依然偏貴
分享到 :
最新影片
![](https://cdn.unwire.hk/wp-content/uploads/2024/07/cmf_phone1_web1-694x390.jpg)