阿里巴巴發表「夾口型」AI 模型　可以把人像配合聲音生成說話動畫

2024-03-02

Published by

藍骨

AI 生成技術最近繼續不斷進步，最近阿里巴巴就發表全新的人像動畫生成模型 EMO，輸入人像照片和聲音後，就可以自動生成生動的影片，口型甚至表情也會隨着聲音自然調節。

阿里巴巴的「智慧運算研究所」最近發表論文介紹其 EMO (Emote Portrait Alive) 模型，這個模型可以透過分析照片和聲音，將靜態人像照片變成配合聲音的說話或者唱歌影片。從嘴巴的動作到表情和眨眼等，都可以配合內容調整，展現一定的情緒表現，使其更加自然。

據論文表示，今次 EMO 的開發使用了 Audio2Video Diffusion 模型配合超過 250 小時的談話影片來訓練，除了普通話之外也支援其他的語言，在提取臉部特徵之後處理聲音的變化。目前 Nvidia 也有類似的工具 Audio2Face，不過今次 EMO 的示範影片就更加自然，特別是日本動畫風格的應用確實效果不錯，在日後的發展下可能很快會有更強勁的工具面世。不過 EMO 並沒有公開試用，因此實際是否直接生成，還是需要調節才有這樣的效果仍然是個謎。

來源：阿里巴巴