天天看點

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

這兩天有沒有被OpenAI的新成果Sora刷屏?

熙熙攘攘的龍年春節,人物衆多,同時各有各的行為:

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

雨後的東京街頭,光影和反射都處理得很到位:

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

甚至是超近景的蜥蜴,細節拉滿:

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

以上均來自OpenAI首個視訊生成模型Sora。

隻要輸入提示詞,就能生成1分鐘的高清視訊,已經被看作是改寫整個視訊生成領域的新王炸技術。

這不僅轟動了學術圈,還讓同為科技圈的老馬坐不住了。

在推特上直言:特斯拉擁有世界上最好的現實世界模拟和視訊生成能力!

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

哎呦,打起來,打起來。

01 馬斯克回應Sora

Sora釋出後,效果立刻震驚全網。

不過并不像ChatGPT,現在隻有少數人擁有Sora的通路權限。

但不少人還是想自己玩玩看的,是以OpenAI CEOSam Altman立刻抓住這次展示能力的機會,釋出Sora後在推特上開始線上接單。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

隻要釋出提示詞并艾特Sam,或者在Sam的推特下回複,就有可能收到Sora生成好的視訊。

這其中認真回複的有之,乘機搗亂的也有之。

狗狗币圖形設計師DogeDesigner就回複了Sam的推特,他給的提示詞是:

一個人把一家開源的非盈利公司變成閉源的盈利公司。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

這描述,你要不直接報Sam身份證号得了。

而馬斯克直接把這條回複po了出來。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

一方面他最愛的數字貨币就是狗狗币,在推特上和這位使用者也經常互動;而更重要的另一方面,馬斯克和OpenAI有不少過節。

雖然馬斯克是聯合創始人,但後來被踢出了董事會,并且在OpenAI轉變為盈利公司後,多次在公開場合批評和指責OpenAI失去初心,開始逐利。

随後,馬斯克又轉發了一條和OpenAI有關的内容,并配了個帶單片眼鏡的emoji表情,像是在疑惑。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

這條内容是在說Sam擁有一家OpenAI的風險投資基金,這家基金截至去年已承諾投資1.75億美元。

并且這家基金并沒有由OpenAI來管理,隻是“暫時”放在Sam的名下。

衆所周知,Sam并不直接擁有OpenAI的股權,并且把自己通過YC基金對OpenAI投資的間接持有稱為“不重要”,表示自己成立OpenAI就是因為喜歡AI。

而這則Sam擁有OpenAI風投基金的新聞曝出,馬斯克又表示疑惑,可能想暗指Sam還是想要用OpenAI獲利,并不是之前表現出“淡泊名利”的樣子。

本以為馬斯克嘲諷兩條就結束了,誰知在有使用者釋出對比Sora和特斯拉FSD V12的推特後,馬斯克又上線回複:

特斯拉大概在一年前就能生成真實世界的視訊了,并且精準符合實體學。

但這并不是很有趣,因為所有的訓練資料都來自汽車,是以視訊也看起來像來自特斯拉車輛上的攝像頭,盡管這是動态生成而不是記錄下的世界。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

那接下來就看看,Sora和特斯拉的能力對比到底如何?

02 Sora是什麼

Sora,OpenAI的首個視訊生成大模型,或者說是文生視訊大模型。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

本質上是一個擴散模型(Diffusion models),基于不同時長、分辨率和寬高比的視訊和圖像訓練得來。

官方隻淺淺介紹了一些技術細節,其中比較關鍵的有patch、潛(latent),以及訓練路線上的選擇。

對應語言大模型中的token,OpenAI創造了patch這一概念,模型可以将視訊壓縮進低維潛空間中,并分解為Spacetime latent patches,統一不同的視覺資料表現形式。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

也就是說,正如token可以簡化、統一不同的自然語言,patch可以統一不同分辨率、時長和寬高比的視訊和圖像。

而這個視訊壓縮網絡也是OpenAI特意訓練的,用來降低視覺資料次元,并且訓練也是基于該網絡進行,可以減少計算量的壓力。

并且,由于Sora的訓練直接在視訊資料的原始尺寸上進行,和其他模型不同,是以在輸出結果上,Sora也能hold住各種分辨率、時長、寬高比、視角等等的視訊。

同時還優化了構圖和布局。比如業内同類型模型都會盲目裁剪輸出視訊為正方形,造成主題元素隻能部分展示,但Sora可以捕捉完整的場景。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

另外,Sora的技術還包含OpenAI之前在DALL·E 3、擴散型Transformer方面的技術積累和突破。

最終展示出的Sora,就不僅能夠了解提示詞中的要求,還了解這些物體在實體世界中的存在方式。

能了解紙飛機在林中穿過時會發生碰撞,同時光影也會發生變化。

一群紙飛機在茂密的叢林中翩翩起舞,在樹林中穿梭,就像候鳥一樣。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

同時在單個視訊中建立多個鏡頭,并靠對語言的深入了解準确地解釋提示詞,保留角色和視覺風格。

美麗、白雪皚皚的東京熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟随幾個人享受美麗的雪天并在附近的攤位購物。絢麗的櫻花花瓣随着雪花随風飄揚。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

不過,Sora現在并不完美。OpenAI指出它可能難以準确模拟複雜場景的實體原理,并且可能無法了解因果關系。

例如“五隻灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”,狼的數量會變化,一些憑空出現或消失。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

還可能混淆提示的空間細節,例如混淆左右,并且可能難以精确描述随着時間推移發生的事件,例如遵循特定的相機軌迹。

如提示詞“籃球穿過籃筐然後爆炸”中,籃球沒有正确被籃筐阻擋。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

但這些缺點也沒讓各路大佬吝啬他們的贊美,比如紐約大學助理教授、ResNeXt一作謝賽甯直言,Sora将改寫整個視訊生成領域。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

以上就是Sora目前展示出的能力,還有背後的技術,那麼特斯拉的能力又如何?

03 特斯拉的視訊生成能力

去年7月,特斯拉自動駕駛軟體總監Ashok Elluswamy在CVPR2023的演講中提到,特斯拉正在為其人工智能技術建構一個基礎的世界模型(General World Model)。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

根據他的介紹,該模型基于神經網絡,使用過去的視訊和其他事物為條件來預測未來。

該模型不僅能預測一個攝像頭的視角,而是可以預測八個攝像頭的視角(展示的是七個)。

比如對于同一段視訊,該模型可以預測本車在“繼續直行”和“向右變道”兩種情況下,未來周圍環境的演變。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

這其實也就是一種基于文本生成不同視訊的能力。

同時在不同攝像頭視角之間,周圍車輛的顔色可以保持一緻,也就是符合3D物體移動的運動規律。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

特斯拉這裡還強調,我們并沒有特意訓練它在3D層面的能力,或者要求它表現出3D層面的能力,這意味着神經網絡已經了解了深度、運動等實體概念。

并且,特斯拉的這個模型不局限于RGB資料次元,也可以是語義或者幾何次元。

一句話總結就是,基于過去的視訊,給出車輛行動提示,甚至不給提示,該模型可以預測不同的未來情況,以及生成視訊。

那麼既然特斯拉有了如此強大的模型,為什麼之前并沒有很多曝光度?

因為當時介紹時,Ashok直言這還是個“半成品”,關鍵是它可以提供一個神經網絡模拟器,推演出不同的未來結果,跟蹤道路中所有移動的物體。

并且,在馬斯克這次展示自家視訊生成能力時也坦言稱,目前對于FSD訓練的算力還不夠,是以并沒有用模型生成的視訊進行訓練。

Sora爆火,馬斯克急了!“特斯拉才擁有最好的視訊生成技術”

不過馬斯克也表示,特斯拉是可以訓練的,在今年晚些時候,當公司有空餘算力了就會開始。

到這裡其實能看出特斯拉的世界模型和Sora之間的相似點,都是通過視覺讓AI能夠了解甚至模拟真實的實體世界。

隻不過OpenAI在探索過程中,先放出Sora給世界帶來一點震撼;而特斯拉把這個能力運用在了探索自動駕駛,通過純視覺方案,以及視訊資料訓練出的端到端神經網絡,FSD V12已經能比肩老司機。

是以FSD和Sora,不過是AI通過視覺認知世界了解世界上的兩個開花結果,FSD最終用來行動,Sora則是用來生成視訊。

殊途同歸。

馬斯克的認知,确實了不得。

Sora傳送門:https://openai.com/sora

【智能車參考】原創内容,未經賬号授權,禁止随意轉載。

繼續閱讀