天天看點

OpenAI刷屏的視訊模型,是如何做到這麼強的?

OpenAI刷屏的視訊模型,是如何做到這麼強的?

OpenAI 釋出了新的文生視訊大模型,名為 “ Sora ”。

OpenAI刷屏的視訊模型,是如何做到這麼強的?

Sora 模型可以生成最長 60 秒的高清視訊,生成的畫面可以很好的展現場景中的光影關系、各個物體間的實體遮擋、碰撞關系,并且鏡頭絲滑可變。

相信大家已經在朋友圈看到了非常多的文章在展示 OpenAI 的官方示範視訊,由于生成内容的安全問題 Sora 還未開放測試,我們無法擷取更多差異化資訊,是以知危編輯部在此不再重複展示 Sora 模型的效果。

下面,我們想重點探讨為何 Sora 模型的效果看起來遠超市面上我們見過的其他文生視訊模型,他們都做了什麼?

首先,在文生視訊領域,比較成熟的模型思路有循環網絡( RNN )、生成對抗網絡( GAN )和擴散模型( Diffusion models ),而本次OpenAI 推出的 Sora 則是一種擴散模型。

雖然 GAN 模型之前一直很火,但圖像和視訊生成相關的領域,現在處于被擴散模型統治的階段。

因為擴散模型是有非常卓越的優越性的,相較于 GAN,擴散模型的生成多樣性和訓練穩定性都要更好。而最重要的是,擴散模型在圖檔和視訊生成上有更高的天花闆,因為 GAN 模型從原理上來看本質上是機器對人的模仿,而擴散模型則更像是機器學會了 “ 成為一個人 ”。

這麼說或許有些抽象,我們換一個不嚴謹但通俗好了解的例子:

GAN 模型像是一個勤奮的畫家,但不太受控制,因為畫家( 生成器 )一邊不停對着先作( 訓練源 )畫畫,然後另一邊老師( 判别器 )也不停打分。就在大戰無數個回合之後,畫家和老師瘋狂更新進步,最後直到畫家畫出逼真的畫,但整個過程不太好控制,經常練着練着就走火入魔,輸出一些誰也看不懂的玩意兒。同時,他的提升過程本質上是對先作的不斷模仿,是以他還缺乏創造力,導緻天花闆也潛在會比較低。

而擴散模型,則是一個勤奮且聰明的畫家,他并不是機械的仿作,而是在學習大量先作的時候,他學會了圖像内涵與圖像之間的關系,他大概知道了圖像上的 “ 美 ” 應該是什麼樣,圖像的某種 “ 風格 ” 應該是什麼樣,他更像是在思考,他是比 GAN 更有前途的畫家。

也就是說,OpenAI 選擇擴散模型這個範式來創造文生視訊模型,在當下屬于開了個好頭,選擇了一個有潛力的畫家來培養。

那麼,另一個疑問就出現了,由于大家都知道擴散模型的優越性,除了 OpenAI 以外,同樣在做擴散模型的還有很多友商,為什麼 OpenAI 的看起來更驚豔?

因為 OpenAI 有這樣一個思維:我曾經在大語言模型上獲得了非常好的效果、獲得了如此巨大的成功,那我有沒有可能參考這個經驗獲得一次新的成功呢?

答案是可以。

OpenAI 認為,之前在大語言模型上的成功,得益于 Token( 可以翻譯成令牌、标記、詞元都可,翻譯為詞元會更好了解一些 ),Token 可以優雅的把代碼、數學以及各種不同的自然語言進行統一進而友善規模巨大的訓練。于是,他們創造了對應 Token 的 “ Patch ” 概念( 塊,如果 Token 翻譯為詞元了解的話,Patch 或許可以被我們翻譯為 “ 圖塊 ” )用于訓練 Sora 這個視訊模型。

OpenAI刷屏的視訊模型,是如何做到這麼強的?

實際上,在大語言模型中,Token 的應用之是以會如此成功,還得益于 Transformer 架構,他與 Token 是搭配着來的,是以 Sora 作為一個視訊生成擴散模型,差別于主流視訊生成擴散模型采用了 Transformer 架構。( 主流視訊生成擴散模型較多采用 U-Net 架構 )

也就是說,OpenAI 赢在了經驗與技術路線的選擇上。

但是,Transformer 架構這個 “ 成功密碼 ”人盡皆知,在文字、圖像生成上已經成為了主流,為什麼别人沒想着在視訊生成上用,OpenAI 就用了呢?

這源自另外一個問題:Transformer 架構中全注意力機制的記憶體需求會随着輸入序列長度而二次方增長,是以處理視訊這樣的高維信号時,計算成本會非常非常高。

通俗點說,就是雖然用了 Transformer 效果會好,但所需的計算資源也是非常恐怖的,這麼做不是很經濟。

當然,OpenAI 雖然拿各種融資拿到手軟,但也依然沒那麼财大氣粗,是以他們并沒有直接猛砸資源,而是想了另外一種方式來解決計算成本高昂的問題。

這裡我們要先引入 “ latent ” ( 潛 )這一概念,它是一種 “ 降維 ” 或者說是 “ 壓縮 ”,意在用更少的資訊去表達資訊的本質。我們列舉一個不恰當但好了解的例子,這就好像我們用一個三視圖就能儲存記錄一個簡單的立體物體的結構,而非一定要儲存這個立體本身。

OpenAI 為此開發了一個視訊壓縮網絡,把視訊先降維到潛空間,然後再去拿這些壓縮過的視訊資料去生成 Patch ,這樣就能使輸入的資訊變少,有效減小 Transformer 架構帶來的計算量壓力。

如此一來,大部分問題就都解決了,OpenAI 成功地把文生視訊模型套進了其在過去取得巨大成功的大語言模型的範式裡,是以效果想不好都難。

除此之外,OpenAI 在訓練上的路線選擇也稍有不同。他們選擇了 “ 原始尺寸、時長 ” 訓練,而非業内常用的 “ 把視訊截取成預設标準尺寸、時長 ” 後再訓練。

這樣的訓練給 Sora 帶來了諸多好處:

①生成的視訊能更好地自定義時長;

②生成的視訊能夠更好地自定義視訊尺寸;

③視訊會有更好的取景和構圖;

前兩點很好了解,第三點 OpenAI 給出了範例,他們做了一個截取尺寸視訊訓練和原始尺寸視訊訓練的模型對比:

OpenAI刷屏的視訊模型,是如何做到這麼強的?

左側為截取尺寸視訊訓練後模型生成的視訊

右側為原始尺寸視訊訓練後模型生成的視訊

另外,為了文生視訊能夠更好地了解使用者的意圖,達到更好的生成效果,OpenAI 也在 Sora 模型上加入了一些巧思。

首先,訓練 Sora 這樣的文生視訊模型,需要大量含有文本說明的視訊素材,是以 OpenAI 利用自家 DALL·E 3 的 re-captioning 功能,給訓練用的視訊素材都加上了高品質文本描述,他們表示這樣可以提高輸出視訊的整體品質。

除了訓練端,在輸入端他們也動了腦筋,使用者輸入的提示詞并非直接交給 Sora 進行生成的,OpenAI 利用了 GPT 的能力,在使用者給 Sora 輸入提示詞的時候,GPT 會先将使用者輸入的提示詞進行精準的詳盡擴寫,然後再将擴寫後的提示詞交給 Sora,這樣能更好地讓 Sora 遵循提示詞來生成更精準的視訊。

好了,到這裡,我們對 Sora 模型為什麼看起來更強的簡要解析就結束了。

從整體來看,你會發現 Sora 模型的成功并非偶然,他能有如此驚豔的效果,全都得益于 OpenAI 過去的工作,包括 GPT、DALL·E 等,有些是直接調用,有些是借用了思路。

或許我們可以說,OpenAI 自己先成為了一個巨人,然後再站在自己這個巨人的肩膀上,成為了一個新的巨人。

而相對應的是,無論國内還是國外的其他競争對手,或許會因為文生文、文生圖上的技術差,在未來被甩的更遠。

所謂 “ 彎道超車 ”、“ 差距隻有 X 個月 ”,或許是不存在的,隻是自我安慰。

繼續閱讀