Microsoft 發佈 VASA-1 人工智能模型,此項技術能夠根據一張照片及一條音訊軌,創建出說話或唱歌的同步動畫影片。此技術未來可能應用虛擬頭像,無需影片源即可運作。用家也可將網上找到的人物相片,製作成任何說話內容的動畫。
VASA-1 使用機械學習技術分析靜態圖像和語音音訊片段,生成具有精確面部表情、頭部運動和音訊同步的真實影片。Microsoft 稱 VASA-1 在真實感、表情豐富度與效率方面,顯著超越過往的語音動畫方案。該模型不會製作或模擬語音,而是依賴於已有的聲音輸入。研究團隊強調,該技術主要用於研究,而非實際產品或 API 發布。
該模型的訓練基於 2018 年由牛津大學研究人員創建的 VoxCeleb2 數據庫,該數據庫包含來自 6,112 名知名人士的超過一百萬條語音資料,這些資料均來自 YouTube。VASA-1 能生成 512×512 像素解像度的影片,每秒最多 40 幀,幾乎無延遲,這意味著其潛在應用可包括實時視像會議。
Microsoft 建立了 VASA-1 研究專頁,展示了多個樣本影片,展現了模型如何控制不同情緒表達或改變目光方向。這些範例也包括了一些更具創意的生成,例如以蒙娜麗莎的形象配合 Anne Hathaway 在 Conan O’Brien 節目中表演的《Paparazzi》歌曲的音訊軌進行饒舌。
▲VASA-1 研究專頁有多個示範影片(網頁截圖)
Microsoft 研究人員指出,他們的初衷不是製造能夠冒充真實人物的假象,而是探索視覺影響技術生成虛擬互動角色的可能性。他們也意識到這種技術的潛在濫用風險,因此目前不計劃公開此技術背後的程式碼。研究團隊表達了對進一步提升偽造檢測技術的興趣,並反對任何創造關於真實人物的誤導性或有害內容的行為。
資料來源:Ars Technica