AI 生成技術最近繼續不斷進步,最近阿里巴巴就發表全新的人像動畫生成模型 EMO,輸入人像照片和聲音後,就可以自動生成生動的影片,口型甚至表情也會隨着聲音自然調節。
阿里巴巴的「智慧運算研究所」最近發表論文介紹其 EMO (Emote Portrait Alive) 模型,這個模型可以透過分析照片和聲音,將靜態人像照片變成配合聲音的說話或者唱歌影片。從嘴巴的動作到表情和眨眼等,都可以配合內容調整,展現一定的情緒表現,使其更加自然。
據論文表示,今次 EMO 的開發使用了 Audio2Video Diffusion 模型配合超過 250 小時的談話影片來訓練,除了普通話之外也支援其他的語言,在提取臉部特徵之後處理聲音的變化。目前 Nvidia 也有類似的工具 Audio2Face,不過今次 EMO 的示範影片就更加自然,特別是日本動畫風格的應用確實效果不錯,在日後的發展下可能很快會有更強勁的工具面世。不過 EMO 並沒有公開試用,因此實際是否直接生成,還是需要調節才有這樣的效果仍然是個謎。
來源:阿里巴巴
【教學 + 實測】AI 女友陪你過聖誕新年 廣東話語音交流 0 障礙 【教學】ChatGPT 視像隔空教你養魚 用相機攝取現場環境 實時 AI 回應用家問題 【教學】MacWhisper 語音轉錄文字 AI 工具 本地 AI 模型處理 + 支援廣東話、多國語言 + 輸出字幕檔