天天看點

解碼“國産Sora” 又雙叒叕是清華系

作者:休閑荒野
解碼“國産Sora” 又雙叒叕是清華系

Vidu一鍵生成16秒視訊

作者/ IT時報記者 沈毅斌

編輯/ 郝俊慧 孫妍

一輛白色的越野車,尾部卷起陣陣塵土快速行駛在森林中,旁邊的樹木随着車輛行駛由遠及近逐漸從畫面中消失;一個海邊小屋裡,陽光灑向房間,鏡頭緩慢穿過陽台,俯瞰平靜大海上漂浮的幾艘船隻,最後鏡頭定格,海面的波光、船隻的倒影、遠處的藍天白雲都是如此逼真;一隻熊貓坐在湖邊,跟着節奏揮動手臂,彈奏着吉他……

解碼“國産Sora” 又雙叒叕是清華系

4月27日,在2024中關村論壇年會未來人工智能先鋒論壇上,由生數科技聯合清華大學打造的文生視訊大模型Vidu首次釋出,可模拟真實實體世界,具備豐富的想象力、多鏡頭語言和高時空一緻性,對中國元素也有較高的了解力。

兩個月前,Open AI帶着全新的文生視訊大模型Sora“來勢洶洶”,成為人工智能界的開年“王炸”。自此以後,盡管多家大模型廠商都在釋出視訊大模型,但沒有一家能與Sora“平起平坐”。

國内大模型以自己的方式打破這一局面,Vidu被稱為“國産Sora”。不過,與Sora相比,Vidu在生成時長和模拟性方面還有一定差距,而算力依然是橫亘于前的巨大挑戰。

一盆墨水的“逆向還原”

以往短視訊的生成,是先生成關鍵幀,再以此為核心做連續時序的拓展,相當于預測前後幀的畫面進行補充,但很難保證長時間畫面預測的連續性。

Sora擴充了擴散模型在時間次元上的應用,進而確定生成的視訊不僅單幀品質高,而且幀與幀之間有良好的過渡和連貫性。在Sora之前的文生視訊大模型,大多隻能生成幾秒到十幾秒的視訊,而Sora則可生成最長60秒的視訊。

生數科技産品負責人張旭東在接受媒體采訪時表示,擴散模型本質是做一個機率分布,随着模型規模越來越大,機率分布越逼近于真實,生成效果也就變得更加逼真。

從目前公布的生成視訊來看,Vidu已經擁有很強的模拟真實世界能力,不過對比Sora,Vidu生成的畫面更偏向油畫,一些複雜畫面的細節處理不如Sora精确,時長也還有較長差距。

解碼“國産Sora” 又雙叒叕是清華系

Vidu生成

解碼“國産Sora” 又雙叒叕是清華系

Sora生成

生數科技的一位内部人士李佳新(化名)告訴《IT時報》記者,“簡單了解,擴散模型就像一滴墨水滴入水中會逐漸擴散一樣,最後整片水域變成黑色。”他進一步解釋,視訊的生成訓練首先是一個正向擴散過程,該過程會逐漸向純淨資料(如圖像或文本)中添加噪聲,直至資料變為完全的随機“噪聲”(這裡指幹擾資料)。

其次是逆向去噪的過程。生成“全噪音”新樣本後,模型逆向而行,即從高斯噪聲出發,逐漸“去噪”,恢複清晰的資料樣本,也即通過複雜的逆向過程,不斷疊代預測減少噪聲,逐層遞增地重構資料,每一步都可能讓視訊變得更加清晰,接近真實樣本,也就是從一盆墨水再還原為一盆清水。

Sora和Vidu都在時間次元上擴充這一去噪過程,在不斷訓練中設定目标函數,根據目标函數指導每個去噪步驟,進而使目前的噪聲狀态更接近原始資料分布,這需要訓練一種或多種預測模型,精準地預測并減除資料中的噪聲成分。不僅要考慮每一幀圖像的去噪恢複,還要確定相鄰幀之間的動态連續性和流暢性。

技術路線釋出早于Sora

Vidu使用的底層架構是U-ViT(Uni-Vision Transformer視覺轉換器),由生數科技在2022年9月推出,是全球首個Diffusion(擴散機率模型)與Transformer(轉換模型)融合的架構。兩個月後,伯克利和紐約大學的兩位學者釋出了DiT(Diffusion Transformer)架構,這被認為是Sora的主要技術來源。

Transformer是類似ChatGPT、文心一言等語言大模型最核心的架構,在并行處理、長序列資料處理、語境了解、靈活性和擴充性等方面有很強的能力,而Diffusion架構是圖檔大模型的核心,是保證高品質圖像的關鍵。将這二者融合便形成既能靈活擴充、了解語境,又能生成高清畫面的U-ViT架構。

盡管生數科技團隊先找到了文生視訊最合适的技術路線,但受限于美國對中國的算力禁售以及增長的算力成本,2023年,團隊重點投入到文生圖和文生3D等計算量較小的大模型開發,并在3月開源了基于多模态融合的大模型UniDiffuser。

2024年1月,Vidu團隊實作了4秒視訊生成時長突破。

2月,Sora搶先釋出,這給團隊帶來相當“刺激”,以後兩個月,大家憋足了勁加速研發。如今,Vidu已可生成最長為16秒的視訊。

解碼“國産Sora” 又雙叒叕是清華系

何時能趕上Sora?

清華大學教授、生數科技首席科學家朱軍坦言,長視訊對計算的消耗,對分布式系統網絡帶寬的傳輸等都帶來了新的挑戰,這些都需要一點點攻關,同時還需要算力的支援以及高品質資料的訓練和治理。此外,算法原理、模型架構、資料治理、工程實作等同樣也是突破視訊時長的關鍵。

截至目前,生數科技已完成多筆融資,投資方包括啟明創投、螞蟻集團、BV百度風投、達泰資本、錦秋基金、卓源亞洲、智譜AI等知名機構和企業。随着資本的不斷注入,領銜中國類Sora模型的願景,或将成為Vidu可預期的未來。

解碼“國産Sora” 又雙叒叕是清華系

始于遊戲用于遊戲

與Sora一樣,Vidu也未向公衆開放。

李佳新表示,Vidu未來主要運用場景可能是遊戲和影視領域,生數科技可以提供文生圖、3D模型生成和視訊生成等功能,這些功能在遊戲領域的需求最大。

浙江大學百人計劃研究員、博士生導師趙俊博曾推測,Sora可能是運用了遊戲引擎生成的大規模資料進行訓練。倘若Vidu也走同樣路線,遊戲将成為其落地的重要場景。

始于遊戲,用于遊戲。

“比如,遊戲創造初期,Vidu可以幫創作者生成角色、場景等草圖,在此基礎上不斷完善。傳統意義上,遊戲3D模型需要手動模組化,在3D模型生成的加持下,不僅可以自動生成遊戲道具、玩家形象等各類3D模型,還能生成角色宣傳視訊,提升遊戲開發效率。此外,遊戲背景、遊戲道具、角色示範等也都可以運用視訊生成。”李佳新舉例道。

目前,影響文生視訊大模型在遊戲場景落地使用的關鍵,還在于模型能力,許多生成内容隻能提供快速卻粗略的設計,後期還需要人工不斷優化。

釋出會當日,生數科技正式推出“Vidu大模型合作夥伴計劃”,希望與産業鍊上下遊企業、研究機構共同建構合作生态。生數科技聯合創始人兼 CEO 唐家渝表示,生數科技将繼續打造覆寫文本、圖像、視訊、3D 模型等多模态能力的底層通用大模型,面向 B 端提供模型服務能力,同時還将面向圖像生成、視訊生成等場景打造垂類應用,為遊戲制作、影視後期等需求提供訂閱制收費服務。

繼續閱讀