日前中國中關村人工智能論壇中,清華大學聯合生數科技宣布推出Vidu--中國首個 Sora 級的影片製作人工智能模型,標誌著中國國產自研人工智能在影片技術領域取得了重大突破。
該模型展示了其在時空一致性、多鏡頭生成能力方面的優勢,能夠根據文字描述,直接生成高達 1080P 解像度長達 16 秒的影片。
Vidu 採用了由清華大學聯合生數科技團隊自研的 U-ViT 架構,此架構融合了 Diffusion 技術與 Transformer 技術。生數科技首席科學家朱軍教授指,這一架構能夠支援影片內容的快速生成,並強調這是全球首個此類融合架構,完全由團隊自主研發。
Vidu 能夠模擬真實物理世界,同時展示豐富的想象力,例如生成具有特定中國文化標誌的影片,如熊貓、龍等。朱軍指出,Vidu的命名寓意著「Video」和「We do」,強調團隊的創新和實際執行力。他還提到,自Sora發佈以來,團隊在影片長度和處理技術方面進一步突破,大幅提升影片的連貫性和動態性。
朱軍教授表示,Vidu的推出是一個多維度、跨領域的綜合成果,期待通過與產業鏈各方面的深入合作,共同推動影片製作大模型技術的進一步發展。
資料來源:中國新聞網