剛釋出就被對标Sora，這個國産模型來頭這麼大？

前幾天，世超上網沖浪的時候，刷到了幾個 AI 視訊片段。

大船駛來的壓迫感，被風吹起的發絲和絲巾，太空人直接走進現實菜園。。。一幕幕把我看得是一愣一愣的。

真實度也是一絕，在湖邊随着鏡頭移動，不僅光線跟着變化，連天空、樹木的變化都跟咱肉眼看到的沒差。

要不是右下角有水印，我還差點以為是 Sora 的視訊又上新了。

是以這次的主角不是 Sora ，也不是各位差友熟知的 Pika 、 Runway 那幾個 Sora 競品，而是初出茅廬的國産視訊大模型 Vidu 。

咱看到的那些視訊，就是前幾天， Vidu 在中關村論壇的人工智能主題日上公布的。

它最長能生成16 秒，一句 “ 木頭玩具船在地毯上航行 ” 的提示詞，就能生成下面這長長的一段，一鏡到底的絲滑程度，怕是路過的謀子導演看了都會點贊。

Sora 号稱能真實模拟實體世界的拿手戲， Vidu 照樣也能實作。

讓它生成一段 “ 汽車加速駛過森林裡鄉間小路 ” 的視訊，像是樹林縫隙透過的陽光，後輪揚起的灰塵，都很符合咱們的日常認知。

而且 Vidu 的想象力比咱人還要豐富，畫室裡的一艘船駛向鏡頭的場景，它分分鐘就能給 “ 拍 ” 出來，看這效果，不知道該有多少動效師瑟瑟發抖了。

甚至在某些提示詞下， Vidu 的了解能力比 Sora 還強，比如 “ 鏡頭繞着電視旋轉 ” 的提示詞， Sora 壓根兒就沒 get 到旋轉的意思，反而是 Vidu 能輕松了解。

有一說一，在看完 Vidu 的這些視訊後，世超是真覺得它是目前市面上，唯一一個能在畫面效果上和 Sora 拼一拼的模型。

雖然現在 16 秒的 Vidu 在時長上還比不上 60 秒的 Sora ，但它的進步也确實是肉眼可見的快，據極客公園消息，上個月， Vidu 在内部隻能生成 8 秒的視訊，上上上個月，還隻能生成 4 秒的視訊。

反正媒體們都把 Vidu 比作是 “ Sora 級視訊大模型 ” ，網友們也都在評論區喊話催他們趕緊開放内測。

不過這裡面世超更好奇的是，咱之前壓根兒都沒聽說過 Vidu ，怎麼突然平地一聲雷，搞出了這麼大的陣仗？

我們也順藤摸瓜找了找資料，發現 Vidu 身上，值得說道的東西還挺多，甚至仔細咂摸下，還能從 Sora 身上找出點 Vidu 的影子來（世超可沒說反）。

它背後是一家名叫生數科技的公司，别看這個公司才剛滿一周歲，但它可是在娘胎裡就開始攢勁兒了。因為它的親媽，是清華系AI 企業瑞萊智慧，背後的研究團隊，幾乎全是這裡面的人。

而在成立生數科技之前，團隊就已經把視訊大模型研究得很深入了。

尤其是在圖像生成這塊很火的擴散（ Diffusion ）模型，他們算是業内第一批研究這個模型的，整出來的論文也在 ICML 、 NeurIPS 、 ICLR 各種頂會發了個遍。

正是因為有這麼好的底子，早在2022 年 9 月的時候，團隊就找到了做 Vidu 的靈感，就是下面這篇論文。

世超讓 AI 幫咱解讀了下，大概的思路就是，擴散模型在生成圖像這塊挺強，而大語言模型裡用的 Transformer 有個規模（ Scale ）效應，參數堆得越多，性能就越好。團隊就想着，能不能把這兩個的優點結合一下，整個融合架構，提升圖像生成的品質。

于是他們轉頭把擴散模型裡面的 U-Net 給換成 Transformer ，還起了個名字叫 U-ViT （ Vision Transformers ）。結果試下來發現這麼一結合還真有用，光是相同大小的 U-ViT ，性能就比 U-Net 強了。

那好嘛，既然這條路走得通，他們也順勢把技術路線定在了 U-ViT 上。

然鵝。。。在團隊悄悄醞釀 Vidu 的時候，大洋彼岸的UC 伯克利的一個研究，卻讓 OpenAI 的 Sora 捷足先登了。

就在清華小分隊送出論文的兩個月後， UC 伯克利也在預印平台 ArXiv 上送出他們的論文了，一樣說要把 Transformers 揉在擴散模型裡面，隻不過名字起的更直白了點，叫DiT （ Diffusion Transformers ）。

看着是不是挺眼熟，沒錯， OpenAI 的 Sora 模型，用的就是伯克利的 DiT 技術路線。

但因為清華小分隊早發了兩個月，當年的計算機視覺頂會 CVPR 2023 還以 “ 缺乏創新 ” 的由頭，拒了 Sora 的 DiT ，收錄了 U-ViT 。

而且早在 2023 年年初的時候，清華小分隊還用 U-ViT ，訓練出了一個近 10 億參數量的開源大模型 UniDiffuser 。

算是第一個用行動證明了，融合架構也遵守 Scaling Law 這一套規則，也就是說随着計算量、參數量越來越大，模型的性能就會随指數級上升。而這個 Scaling Law ，同樣也是 Sora 這麼強的秘密武器。

是以照這麼來盤算，Sora 其實還得叫 Vidu 一聲祖師爺才對。。。

但現實世界卻是， DiT 被 OpenAI 帶着一路飛升。

清華小分隊呢，計算資源沒 OpenAI 那麼到位，也沒 ChatGPT 這種珠玉在前，總之就是啥啥都不完善，他們隻能慢慢來，先做圖像、 3D 模型，等有家底兒了，再去做視訊。

好在他們身上還是有點實力在的，穩紮穩打慢慢也趕上來了。去年 3 月，清華小分隊們成立了生數科技後，就在馬不停蹄地搞自家的産品，現在圖像生成和 3D 模型生成大夥兒都能免費用了。

并且靠着這兩個産品，剛滿一周年，它就攢了好幾億的家底。

像是成立 3 個月的時候，就完成了一波近億級的天使輪投資，上個月，又完成了新一輪的數億元融資。參與投資的，也都是智譜 AI 、 BV 百度風投等等業内大佬。

反正看這波架勢， Vidu 還真有可能成為國内的黑馬，去對标 OpenAI 的 Sora 。

不過生數科技那邊，倒是覺得隻把 Vidu 看作國産版的 Sora ，實在是有點缺乏想象力了，因為他們給 Vidu 的定位，可不僅僅是個視訊模型，而是圖、文、視訊全都要，隻不過現在視訊暫時是重點。

當然了，好聽話誰都會說，能不能搞出來，咱還得實打實地看成品。

世超已經去排了隊，等拿到内測資格，再跟大夥兒同步一波。。。

剛釋出就被對标Sora，這個國産模型來頭這麼大？

繼續閱讀

國産App毫無底線？亂加廣告，狂占手機記憶體，再這麼搞真要解除安裝了

國産力量走向世界！智元機器人率先開啟通用機器人商用量産

出手即王炸？照片級真實度生成式世界模型，還獲得皮克斯投資

國産廠商突破RGB OLED顯示難題!

國産手機“全員” 接入DeepSeek，除了它

騰訊、華為等接入DeepSeek每月虧損超4億，MaaS模型即服務将要被颠覆了？｜钛媒體AGI

國産影像旗艦上演 “ 巅峰對決 ” ，華為這新機，真是來搗亂的!

曾經的國産手機一哥突然“複牌”，能王者歸來？

性趣機器人意外獲大模型賦能，成人用品概念股集體上漲，逆天了？

潮玩崛起：國産IP的“天命之戰”

全球宅男卧室，被國産“AI娃娃”占領

這款被央視點名的國産遊戲，怎麼就多半差評了？

DeepSeek之後又一國産黑馬？“全球首款”通用AI Agent一夜刷屏，全網在要邀請碼

《哪吒2》衍生品賣爆背後（下）｜情緒消費崛起國産IP衍生品如何長線經營

巨虧42億！國産飲料巨頭隕落，如今創始人失聯，将爛攤子甩給兒子

暴增4230%！國産平替晶片一夜翻身，黃仁勳連夜赴華"救場"