中國首個Sora級模型Vidu釋出：生成最長16秒、最高1080P視訊

作者：IT之家 2024-04-27 13:07:00

IT之家 4 月 27 日消息，生數科技今天出席中關村論壇未來人工智能先鋒論壇，攜手清華大學正式釋出中國首個長時長、高一緻性、高動态性視訊大模型 ——Vidu，被媒體和業内人士認為是國内首個 Sora 級别的視訊大模型。

根據官方描述，Vidu 模型融合 Diffusion 與 Transformer，開創性建立了 U-ViT，支援一鍵生成長達 16 秒、分辨率高達 1080P 的高清視訊内容。

官方宣傳資料中示範了“畫室中的一艘船駛向鏡頭”、其海浪、船的效果非常逼真。

官方表示 Vidu 不僅能夠模拟真實實體世界，還擁有豐富想象力，具備多鏡頭生成、時空一緻性高等特點。

Vidu 是自 Sora 釋出之後，全球率先取得重大突破的視訊大模型，性能全面對标國際頂尖水準，并在加速疊代提升中。

Vidu 的快速突破源自于團隊在貝葉斯機器學習和多模态大模型的長期積累和多項原創性成果。

其核心技術 U-ViT 架構由團隊于 2022 年 9 月提出，早于 Sora 采用的 DiT 架構，是全球首個 Diffusion 與 Transformer 融合的架構。

2023 年 3 月，團隊開源了全球首個基于 U-ViT 融合架構的多模态擴散模型 UniDiffuser，率先完成了 U-ViT 架構的大規模可擴充性驗證。

IT之家附上參考位址

繼續閱讀