Categories: 人工智能

阿里巴巴發表「夾口型」AI 模型 可以把人像配合聲音生成說話動畫

Published by
藍骨
Share

AI 生成技術最近繼續不斷進步,最近阿里巴巴就發表全新的人像動畫生成模型 EMO,輸入人像照片和聲音後,就可以自動生成生動的影片,口型甚至表情也會隨着聲音自然調節。

阿里巴巴的「智慧運算研究所」最近發表論文介紹其 EMO (Emote Portrait Alive) 模型,這個模型可以透過分析照片和聲音,將靜態人像照片變成配合聲音的說話或者唱歌影片。從嘴巴的動作到表情和眨眼等,都可以配合內容調整,展現一定的情緒表現,使其更加自然。

據論文表示,今次 EMO 的開發使用了 Audio2Video Diffusion 模型配合超過 250 小時的談話影片來訓練,除了普通話之外也支援其他的語言,在提取臉部特徵之後處理聲音的變化。目前 Nvidia 也有類似的工具 Audio2Face,不過今次 EMO 的示範影片就更加自然,特別是日本動畫風格的應用確實效果不錯,在日後的發展下可能很快會有更強勁的工具面世。不過 EMO 並沒有公開試用,因此實際是否直接生成,還是需要調節才有這樣的效果仍然是個謎。

來源:阿里巴巴


相關文章:
  • Microsoft 注資發展再生能源 應對 AI 開發耗電需求
  • Meta AI 廣告工具可生成完整圖片 強調有辦法避免工具被濫用
  • DeepMind 新 AI 模型探索生命奧祕 AlphaFold 3 可快速預測生命元素結構

  • Published by
    藍骨