Stability AI 正式宣布「Stable Video Diffusion」基於其現有的 Stable Diffusion 文字到圖像模型的 AI 模型,能夠從圖像生成動畫影片。這款模型目前處於「研究預覽」階段,使用者需同意特定使用條款,包括其預期應用(如教育或創意工具、設計和其他藝術過程等)和非預期用途(如對人物或事件的真實或事實性表達)。
Stable Video Diffusion 包括兩種模型:SVD 和 SVD-XT。SVD 能將靜態圖像轉換為 14 幀的 576×1024 影片,而 SVD-XT 則使用相同的架構,但將幀數提高到 25 幀。兩者均能以每秒 3 至 30 幀的速度生成影片。
根據發布的白皮書,SVD 和 SVD-XT 最初在數百萬影片的數據庫上進行訓練,然後在數十萬至約一百萬的小型影片庫上進行「微調」。這些影片的來源目前尚不清楚,可能會對 Stability 及其用戶在使用權方面帶來法律和道德挑戰。
儘管如此,Stable Video Diffusion 在技術上仍有一定的限制,例如無法生成靜態或慢動作影像,不能由文字控制,無法清晰渲染文字,也不能正確生成人臉和人物。
然而 Stable Video Diffusion 的推出也引發了一些擔憂,尤其是關於其可能被濫用的風險。該模型目前似乎沒有內置的內容過濾器,這可能會導致其被用於製作不當內容。
Stability AI 表示,這些模型具有很高的擴展性,並可適用於生成物體的 360 度視圖等用途。公司計劃推出一系列基於 SVD 和 SVD-XT 的新模型,以及一個將文字提示帶到網絡上的「文字到影片」工具,其最終目標似乎是商業化,潛在應用領域包括廣告、教育、娛樂等。
資料來源:techcrunch