Stable Video Diffusion 正式發佈可從圖像生成動畫影片

2023-11-22

Published by

蔣納偲

Stability AI 正式宣布「Stable Video Diffusion」基於其現有的 Stable Diffusion 文字到圖像模型的 AI 模型，能夠從圖像生成動畫影片。這款模型目前處於「研究預覽」階段，使用者需同意特定使用條款，包括其預期應用（如教育或創意工具、設計和其他藝術過程等）和非預期用途（如對人物或事件的真實或事實性表達）。

Stable Video Diffusion 包括兩種模型：SVD 和 SVD-XT。SVD 能將靜態圖像轉換為 14 幀的 576×1024 影片，而 SVD-XT 則使用相同的架構，但將幀數提高到 25 幀。兩者均能以每秒 3 至 30 幀的速度生成影片。

根據發布的白皮書，SVD 和 SVD-XT 最初在數百萬影片的數據庫上進行訓練，然後在數十萬至約一百萬的小型影片庫上進行「微調」。這些影片的來源目前尚不清楚，可能會對 Stability 及其用戶在使用權方面帶來法律和道德挑戰。

儘管如此，Stable Video Diffusion 在技術上仍有一定的限制，例如無法生成靜態或慢動作影像，不能由文字控制，無法清晰渲染文字，也不能正確生成人臉和人物。

然而 Stable Video Diffusion 的推出也引發了一些擔憂，尤其是關於其可能被濫用的風險。該模型目前似乎沒有內置的內容過濾器，這可能會導致其被用於製作不當內容。

Stability AI 表示，這些模型具有很高的擴展性，並可適用於生成物體的 360 度視圖等用途。公司計劃推出一系列基於 SVD 和 SVD-XT 的新模型，以及一個將文字提示帶到網絡上的「文字到影片」工具，其最終目標似乎是商業化，潛在應用領域包括廣告、教育、娛樂等。

資料來源：techcrunch