生成式 AI 技術越來越進步,模擬真人發聲的工具也變得相當像真。最近 Microsoft 就公佈全新的 AI 語音生成工具 VALL-E 2,據稱已經達到「真人」發聲的水平。
據報導指,Microsoft 的這個 VALL-E 2 工具是去年 1 月首次發佈的 VALL-E 的新版本,可以將文字轉變成語音,而且其效果已經達到「與人類相同」的水平,開發人員表示,VALL-E 2 只需幾秒鐘的音頻輸入就能學會模仿聲音。
VALL-E 2 採用「重複感知抽樣」(Repetition Aware Sampling)和「分組程式碼建模」(Grouped Code Modeling)技術,使詞元的重複問題得以解決,改善流暢度和生成速度。
這種技術的應用範圍廣泛,從個性化語音助手到視頻游戲配音等範疇都有潛在使用價值。不過 Microsoft 擔心 VALL-E 2 的強大功能會遭到應用,因此目前並未打算對外公佈,只作內部研究用途。與其他生成式 AI 工具一樣,這種技術可能被用於製作深度偽造 (Deepfake) 語音,進而引發身份欺詐和虛假資訊傳播等問題。
來源:Decoder
相關文章:
iPhone SE 4 傳明年首季發表 將支援 Apple Intelligence 人工智能