GitHub 開發者 Lvmin Zhang 與斯坦福大學 Maneesh Agrawala 合作研發最新「FramePack」技術,利用影片擴散模型中的固定長度時域上下文,顯著提升影片生成的效率。根據實測,這項基於 130 億參數模型的技術,能夠在 6GB VRAM(顯示卡記憶體)的顯示卡上生成長達 60 秒的影片。
FramePack是一種神經網絡架構,通過多階段增強策略,實現了本地 AI 影片生成。目前底層架構應用騰訊混元模型,但現有的預訓練模型亦可通過FramePack 進行微調,以適應不同需求。
傳統的影片擴散模型生成影片時,需要對先前生成的帶有噪音的幀進行處理,再預測下一幀的畫面。每生成一幀所需的上下文幀數會隨著影片長度的增加而增大,這使得 VRAM 需求高企,通常需要至少 12GB VRAM。若 VRAM 不足,生成的影片將會很短、品質較差,且處理時間較長。FramePack 則通過壓縮輸入幀,根據其重要性調整上下文長度,大幅降低VRAM需求,計算消耗與圖片擴散模型相似。
除此之外,FramePack 還能有效緩解“漂移”(drifting)現象,這是指隨著影片長度增加,畫面品質下降的問題。這項技術能在不顯著犧牲品質的情況下,生成更長時間的影片。用戶能夠即時查看每一幀生成後的畫面,方便進行預覽和調整。
FramePack支援 FP16、BF16 數據格式,並能與RTX 30、RTX 40、RTX 50系列顯示卡兼容,除 RTX 3050 4GB 外,大部分現代顯示卡都能應用這項技術。雖然目前尚未在 RTX 20 系列及更舊顯示卡上進行驗證,也沒有涉及AMD、Intel處理器的需求,但這對於一般用戶來說,已經足夠支援日常需求。Windows 及Linux 操作系統亦均可使用這項技術。
在性能方面,RTX 4090 經過 Teacache 增強後,每秒可以生成大約 0.6 幀。意味著生成速度會受到顯示卡性能的影響,但每幀生成後都能即時顯示畫面,為用戶提供直觀的視覺反饋。
目前的模型對生成速度有一定限制,但FramePack 仍讓 AI 影片生成技術變得更加普及,使更多消費者能夠享受影片創作的樂趣。
資料來源:Tom’s Hardware
分享到 :
最新影片
