解碼“國産Sora” 又雙叒叕是清華系

Vidu一鍵生成16秒視訊

作者／ IT時報記者沈毅斌

編輯／郝俊慧孫妍

一輛白色的越野車，尾部卷起陣陣塵土快速行駛在森林中，旁邊的樹木随着車輛行駛由遠及近逐漸從畫面中消失；一個海邊小屋裡，陽光灑向房間，鏡頭緩慢穿過陽台，俯瞰平靜大海上漂浮的幾艘船隻，最後鏡頭定格，海面的波光、船隻的倒影、遠處的藍天白雲都是如此逼真；一隻熊貓坐在湖邊，跟着節奏揮動手臂，彈奏着吉他……

4月27日，在2024中關村論壇年會未來人工智能先鋒論壇上，由生數科技聯合清華大學打造的文生視訊大模型Vidu首次釋出，可模拟真實實體世界，具備豐富的想象力、多鏡頭語言和高時空一緻性，對中國元素也有較高的了解力。

兩個月前，Open AI帶着全新的文生視訊大模型Sora“來勢洶洶”，成為人工智能界的開年“王炸”。自此以後，盡管多家大模型廠商都在釋出視訊大模型，但沒有一家能與Sora“平起平坐”。

國内大模型以自己的方式打破這一局面，Vidu被稱為“國産Sora”。不過，與Sora相比，Vidu在生成時長和模拟性方面還有一定差距，而算力依然是橫亘于前的巨大挑戰。

一盆墨水的“逆向還原”

以往短視訊的生成，是先生成關鍵幀，再以此為核心做連續時序的拓展，相當于預測前後幀的畫面進行補充，但很難保證長時間畫面預測的連續性。

Sora擴充了擴散模型在時間次元上的應用，進而確定生成的視訊不僅單幀品質高，而且幀與幀之間有良好的過渡和連貫性。在Sora之前的文生視訊大模型，大多隻能生成幾秒到十幾秒的視訊，而Sora則可生成最長60秒的視訊。

生數科技産品負責人張旭東在接受媒體采訪時表示，擴散模型本質是做一個機率分布，随着模型規模越來越大，機率分布越逼近于真實，生成效果也就變得更加逼真。

從目前公布的生成視訊來看，Vidu已經擁有很強的模拟真實世界能力，不過對比Sora，Vidu生成的畫面更偏向油畫，一些複雜畫面的細節處理不如Sora精确，時長也還有較長差距。

Vidu生成

Sora生成

生數科技的一位内部人士李佳新（化名）告訴《IT時報》記者，“簡單了解，擴散模型就像一滴墨水滴入水中會逐漸擴散一樣，最後整片水域變成黑色。”他進一步解釋，視訊的生成訓練首先是一個正向擴散過程，該過程會逐漸向純淨資料（如圖像或文本）中添加噪聲，直至資料變為完全的随機“噪聲”（這裡指幹擾資料）。

其次是逆向去噪的過程。生成“全噪音”新樣本後，模型逆向而行，即從高斯噪聲出發，逐漸“去噪”，恢複清晰的資料樣本，也即通過複雜的逆向過程，不斷疊代預測減少噪聲，逐層遞增地重構資料，每一步都可能讓視訊變得更加清晰，接近真實樣本，也就是從一盆墨水再還原為一盆清水。

Sora和Vidu都在時間次元上擴充這一去噪過程，在不斷訓練中設定目标函數，根據目标函數指導每個去噪步驟，進而使目前的噪聲狀态更接近原始資料分布，這需要訓練一種或多種預測模型，精準地預測并減除資料中的噪聲成分。不僅要考慮每一幀圖像的去噪恢複，還要確定相鄰幀之間的動态連續性和流暢性。

技術路線釋出早于Sora

Vidu使用的底層架構是U-ViT（Uni-Vision Transformer視覺轉換器），由生數科技在2022年9月推出，是全球首個Diffusion（擴散機率模型）與Transformer（轉換模型）融合的架構。兩個月後，伯克利和紐約大學的兩位學者釋出了DiT（Diffusion Transformer）架構，這被認為是Sora的主要技術來源。

Transformer是類似ChatGPT、文心一言等語言大模型最核心的架構，在并行處理、長序列資料處理、語境了解、靈活性和擴充性等方面有很強的能力，而Diffusion架構是圖檔大模型的核心，是保證高品質圖像的關鍵。将這二者融合便形成既能靈活擴充、了解語境，又能生成高清畫面的U-ViT架構。

盡管生數科技團隊先找到了文生視訊最合适的技術路線，但受限于美國對中國的算力禁售以及增長的算力成本，2023年，團隊重點投入到文生圖和文生3D等計算量較小的大模型開發，并在3月開源了基于多模态融合的大模型UniDiffuser。

2024年1月，Vidu團隊實作了4秒視訊生成時長突破。

2月，Sora搶先釋出，這給團隊帶來相當“刺激”，以後兩個月，大家憋足了勁加速研發。如今，Vidu已可生成最長為16秒的視訊。

何時能趕上Sora？

清華大學教授、生數科技首席科學家朱軍坦言，長視訊對計算的消耗，對分布式系統網絡帶寬的傳輸等都帶來了新的挑戰，這些都需要一點點攻關，同時還需要算力的支援以及高品質資料的訓練和治理。此外，算法原理、模型架構、資料治理、工程實作等同樣也是突破視訊時長的關鍵。

截至目前，生數科技已完成多筆融資，投資方包括啟明創投、螞蟻集團、BV百度風投、達泰資本、錦秋基金、卓源亞洲、智譜AI等知名機構和企業。随着資本的不斷注入，領銜中國類Sora模型的願景，或将成為Vidu可預期的未來。

始于遊戲用于遊戲

與Sora一樣，Vidu也未向公衆開放。

李佳新表示，Vidu未來主要運用場景可能是遊戲和影視領域，生數科技可以提供文生圖、3D模型生成和視訊生成等功能，這些功能在遊戲領域的需求最大。

浙江大學百人計劃研究員、博士生導師趙俊博曾推測，Sora可能是運用了遊戲引擎生成的大規模資料進行訓練。倘若Vidu也走同樣路線，遊戲将成為其落地的重要場景。

始于遊戲，用于遊戲。

“比如，遊戲創造初期，Vidu可以幫創作者生成角色、場景等草圖，在此基礎上不斷完善。傳統意義上，遊戲3D模型需要手動模組化，在3D模型生成的加持下，不僅可以自動生成遊戲道具、玩家形象等各類3D模型，還能生成角色宣傳視訊，提升遊戲開發效率。此外，遊戲背景、遊戲道具、角色示範等也都可以運用視訊生成。”李佳新舉例道。

目前，影響文生視訊大模型在遊戲場景落地使用的關鍵，還在于模型能力，許多生成内容隻能提供快速卻粗略的設計，後期還需要人工不斷優化。

釋出會當日，生數科技正式推出“Vidu大模型合作夥伴計劃”，希望與産業鍊上下遊企業、研究機構共同建構合作生态。生數科技聯合創始人兼 CEO 唐家渝表示，生數科技将繼續打造覆寫文本、圖像、視訊、3D 模型等多模态能力的底層通用大模型，面向 B 端提供模型服務能力，同時還将面向圖像生成、視訊生成等場景打造垂類應用，為遊戲制作、影視後期等需求提供訂閱制收費服務。

解碼“國産Sora” 又雙叒叕是清華系

繼續閱讀

國産戰争影片新高峰！震撼預告援軍明日到達引人淚下

國産超級客機啟動，起飛重量或達400噸，航程1.5萬公裡

國産新能源車所有品牌最全車型分布圖（2024年5月）

汽車直播間女主播擦邊賣車！是行業太卷，還是為業績無底線？這兩年，汽車企業無論國産，進口，還是合資日子都不太好過，為了能突

奉勸你們别吹捧國産車了，兩個問題不解決，取代56E就是癡人說夢

娜塔莎一家國内又買新車，娜塔莎感動落淚,大郎秀國産,哈國充電難

氣死了!為了8萬塊差價,我買了國産車,然而事實證明,我錯了！

重磅！中科院極紫外光源研究取得重大突破，國産光刻機要來了！

钽酸锂光光學晶片國産化邁出關鍵一步,中國晶片實力再更新！

榴蓮價格“跳水”，旺季來襲，國産榴蓮将突破250萬噸大關

郭田雨突然現身！妙齡女伴相随，伊萬崔康熙大喜，國産高中鋒回歸

美國再次斷供華為晶片，逼迫華為亮劍做國産PC晶片，請拭目以待！

ASML正式做出決定，華為助力國産晶片，Mate60一夜淪為百元機！

世界級豪華才是國産汽車新高度，百萬級頂奢座駕極氪009光輝降臨

又一款國産GPU量産上市：性能媲美AMD E8860嵌入式顯示卡！

耶倫繼續炒作中國産能過剩，華春瑩犀利回應，一語道破美方雙标