中國「Sora級」影片大模型 Vidu【有片睇】製作具中國特色影片 + 文字轉換成 16 秒 1080P 影片

日前中國中關村人工智能論壇中，清華大學聯合生數科技宣布推出Vidu－－中國首個 Sora 級的影片製作人工智能模型，標誌著中國國產自研人工智能在影片技術領域取得了重大突破。

該模型展示了其在時空一致性、多鏡頭生成能力方面的優勢，能夠根據文字描述，直接生成高達 1080P 解像度長達 16 秒的影片。

Vidu 採用了由清華大學聯合生數科技團隊自研的 U-ViT 架構，此架構融合了 Diffusion 技術與 Transformer 技術。生數科技首席科學家朱軍教授指，這一架構能夠支援影片內容的快速生成，並強調這是全球首個此類融合架構，完全由團隊自主研發。

Vidu 能夠模擬真實物理世界，同時展示豐富的想象力，例如生成具有特定中國文化標誌的影片，如熊貓、龍等。朱軍指出，Vidu的命名寓意著「Video」和「We do」，強調團隊的創新和實際執行力。他還提到，自Sora發佈以來，團隊在影片長度和處理技術方面進一步突破，大幅提升影片的連貫性和動態性。

朱軍教授表示，Vidu的推出是一個多維度、跨領域的綜合成果，期待通過與產業鏈各方面的深入合作，共同推動影片製作大模型技術的進一步發展。

最新影片