一張相片一條語音 AI 變影片有表情夾咀型 Microsoft VASA-1 人工智能模型登場

2024-04-21

Published by

Lawton

Microsoft 發佈 VASA-1 人工智能模型，此項技術能夠根據一張照片及一條音訊軌，創建出說話或唱歌的同步動畫影片。此技術未來可能應用虛擬頭像，無需影片源即可運作。用家也可將網上找到的人物相片，製作成任何說話內容的動畫。

VASA-1 使用機械學習技術分析靜態圖像和語音音訊片段，生成具有精確面部表情、頭部運動和音訊同步的真實影片。Microsoft 稱 VASA-1 在真實感、表情豐富度與效率方面，顯著超越過往的語音動畫方案。該模型不會製作或模擬語音，而是依賴於已有的聲音輸入。研究團隊強調，該技術主要用於研究，而非實際產品或 API 發布。

該模型的訓練基於 2018 年由牛津大學研究人員創建的 VoxCeleb2 數據庫，該數據庫包含來自 6,112 名知名人士的超過一百萬條語音資料，這些資料均來自 YouTube。VASA-1 能生成 512×512 像素解像度的影片，每秒最多 40 幀，幾乎無延遲，這意味著其潛在應用可包括實時視像會議。

Microsoft 建立了 VASA-1 研究專頁，展示了多個樣本影片，展現了模型如何控制不同情緒表達或改變目光方向。這些範例也包括了一些更具創意的生成，例如以蒙娜麗莎的形象配合 Anne Hathaway 在 Conan O’Brien 節目中表演的《Paparazzi》歌曲的音訊軌進行饒舌。

▲VASA-1 研究專頁有多個示範影片（網頁截圖）

Microsoft 研究人員指出，他們的初衷不是製造能夠冒充真實人物的假象，而是探索視覺影響技術生成虛擬互動角色的可能性。他們也意識到這種技術的潛在濫用風險，因此目前不計劃公開此技術背後的程式碼。研究團隊表達了對進一步提升偽造檢測技術的興趣，並反對任何創造關於真實人物的誤導性或有害內容的行為。

資料來源：Ars Technica

Published by

Lawton

7 個月前 ago