Sora爆火，馬斯克急了！“特斯拉才擁有最好的視訊生成技術”

這兩天有沒有被OpenAI的新成果Sora刷屏？

熙熙攘攘的龍年春節，人物衆多，同時各有各的行為：

雨後的東京街頭，光影和反射都處理得很到位：

甚至是超近景的蜥蜴，細節拉滿：

以上均來自OpenAI首個視訊生成模型Sora。

隻要輸入提示詞，就能生成1分鐘的高清視訊，已經被看作是改寫整個視訊生成領域的新王炸技術。

這不僅轟動了學術圈，還讓同為科技圈的老馬坐不住了。

在推特上直言：特斯拉擁有世界上最好的現實世界模拟和視訊生成能力！

哎呦，打起來，打起來。

01 馬斯克回應Sora

Sora釋出後，效果立刻震驚全網。

不過并不像ChatGPT，現在隻有少數人擁有Sora的通路權限。

但不少人還是想自己玩玩看的，是以OpenAI CEOSam Altman立刻抓住這次展示能力的機會，釋出Sora後在推特上開始線上接單。

隻要釋出提示詞并艾特Sam，或者在Sam的推特下回複，就有可能收到Sora生成好的視訊。

這其中認真回複的有之，乘機搗亂的也有之。

狗狗币圖形設計師DogeDesigner就回複了Sam的推特，他給的提示詞是：

一個人把一家開源的非盈利公司變成閉源的盈利公司。

這描述，你要不直接報Sam身份證号得了。

而馬斯克直接把這條回複po了出來。

一方面他最愛的數字貨币就是狗狗币，在推特上和這位使用者也經常互動；而更重要的另一方面，馬斯克和OpenAI有不少過節。

雖然馬斯克是聯合創始人，但後來被踢出了董事會，并且在OpenAI轉變為盈利公司後，多次在公開場合批評和指責OpenAI失去初心，開始逐利。

随後，馬斯克又轉發了一條和OpenAI有關的内容，并配了個帶單片眼鏡的emoji表情，像是在疑惑。

這條内容是在說Sam擁有一家OpenAI的風險投資基金，這家基金截至去年已承諾投資1.75億美元。

并且這家基金并沒有由OpenAI來管理，隻是“暫時”放在Sam的名下。

衆所周知，Sam并不直接擁有OpenAI的股權，并且把自己通過YC基金對OpenAI投資的間接持有稱為“不重要”，表示自己成立OpenAI就是因為喜歡AI。

而這則Sam擁有OpenAI風投基金的新聞曝出，馬斯克又表示疑惑，可能想暗指Sam還是想要用OpenAI獲利，并不是之前表現出“淡泊名利”的樣子。

本以為馬斯克嘲諷兩條就結束了，誰知在有使用者釋出對比Sora和特斯拉FSD V12的推特後，馬斯克又上線回複：

特斯拉大概在一年前就能生成真實世界的視訊了，并且精準符合實體學。

但這并不是很有趣，因為所有的訓練資料都來自汽車，是以視訊也看起來像來自特斯拉車輛上的攝像頭，盡管這是動态生成而不是記錄下的世界。

那接下來就看看，Sora和特斯拉的能力對比到底如何？

02 Sora是什麼

Sora，OpenAI的首個視訊生成大模型，或者說是文生視訊大模型。

本質上是一個擴散模型（Diffusion models），基于不同時長、分辨率和寬高比的視訊和圖像訓練得來。

官方隻淺淺介紹了一些技術細節，其中比較關鍵的有patch、潛（latent），以及訓練路線上的選擇。

對應語言大模型中的token，OpenAI創造了patch這一概念，模型可以将視訊壓縮進低維潛空間中，并分解為Spacetime latent patches，統一不同的視覺資料表現形式。

也就是說，正如token可以簡化、統一不同的自然語言，patch可以統一不同分辨率、時長和寬高比的視訊和圖像。

而這個視訊壓縮網絡也是OpenAI特意訓練的，用來降低視覺資料次元，并且訓練也是基于該網絡進行，可以減少計算量的壓力。

并且，由于Sora的訓練直接在視訊資料的原始尺寸上進行，和其他模型不同，是以在輸出結果上，Sora也能hold住各種分辨率、時長、寬高比、視角等等的視訊。

同時還優化了構圖和布局。比如業内同類型模型都會盲目裁剪輸出視訊為正方形，造成主題元素隻能部分展示，但Sora可以捕捉完整的場景。

另外，Sora的技術還包含OpenAI之前在DALL·E 3、擴散型Transformer方面的技術積累和突破。

最終展示出的Sora，就不僅能夠了解提示詞中的要求，還了解這些物體在實體世界中的存在方式。

能了解紙飛機在林中穿過時會發生碰撞，同時光影也會發生變化。

一群紙飛機在茂密的叢林中翩翩起舞，在樹林中穿梭，就像候鳥一樣。

同時在單個視訊中建立多個鏡頭，并靠對語言的深入了解準确地解釋提示詞，保留角色和視覺風格。

美麗、白雪皚皚的東京熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道，跟随幾個人享受美麗的雪天并在附近的攤位購物。絢麗的櫻花花瓣随着雪花随風飄揚。

不過，Sora現在并不完美。OpenAI指出它可能難以準确模拟複雜場景的實體原理，并且可能無法了解因果關系。

例如“五隻灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”，狼的數量會變化，一些憑空出現或消失。

還可能混淆提示的空間細節，例如混淆左右，并且可能難以精确描述随着時間推移發生的事件，例如遵循特定的相機軌迹。

如提示詞“籃球穿過籃筐然後爆炸”中，籃球沒有正确被籃筐阻擋。

但這些缺點也沒讓各路大佬吝啬他們的贊美，比如紐約大學助理教授、ResNeXt一作謝賽甯直言，Sora将改寫整個視訊生成領域。

以上就是Sora目前展示出的能力，還有背後的技術，那麼特斯拉的能力又如何？

03 特斯拉的視訊生成能力

去年7月，特斯拉自動駕駛軟體總監Ashok Elluswamy在CVPR2023的演講中提到，特斯拉正在為其人工智能技術建構一個基礎的世界模型（General World Model）。

根據他的介紹，該模型基于神經網絡，使用過去的視訊和其他事物為條件來預測未來。

該模型不僅能預測一個攝像頭的視角，而是可以預測八個攝像頭的視角（展示的是七個）。

比如對于同一段視訊，該模型可以預測本車在“繼續直行”和“向右變道”兩種情況下，未來周圍環境的演變。

這其實也就是一種基于文本生成不同視訊的能力。

同時在不同攝像頭視角之間，周圍車輛的顔色可以保持一緻，也就是符合3D物體移動的運動規律。

特斯拉這裡還強調，我們并沒有特意訓練它在3D層面的能力，或者要求它表現出3D層面的能力，這意味着神經網絡已經了解了深度、運動等實體概念。

并且，特斯拉的這個模型不局限于RGB資料次元，也可以是語義或者幾何次元。

一句話總結就是，基于過去的視訊，給出車輛行動提示，甚至不給提示，該模型可以預測不同的未來情況，以及生成視訊。

那麼既然特斯拉有了如此強大的模型，為什麼之前并沒有很多曝光度？

因為當時介紹時，Ashok直言這還是個“半成品”，關鍵是它可以提供一個神經網絡模拟器，推演出不同的未來結果，跟蹤道路中所有移動的物體。

并且，在馬斯克這次展示自家視訊生成能力時也坦言稱，目前對于FSD訓練的算力還不夠，是以并沒有用模型生成的視訊進行訓練。

不過馬斯克也表示，特斯拉是可以訓練的，在今年晚些時候，當公司有空餘算力了就會開始。

到這裡其實能看出特斯拉的世界模型和Sora之間的相似點，都是通過視覺讓AI能夠了解甚至模拟真實的實體世界。

隻不過OpenAI在探索過程中，先放出Sora給世界帶來一點震撼；而特斯拉把這個能力運用在了探索自動駕駛，通過純視覺方案，以及視訊資料訓練出的端到端神經網絡，FSD V12已經能比肩老司機。

是以FSD和Sora，不過是AI通過視覺認知世界了解世界上的兩個開花結果，FSD最終用來行動，Sora則是用來生成視訊。

殊途同歸。

馬斯克的認知，确實了不得。

Sora傳送門：https://openai.com/sora

【智能車參考】原創内容，未經賬号授權，禁止随意轉載。

Sora爆火，馬斯克急了！“特斯拉才擁有最好的視訊生成技術”

Sora爆火，馬斯克急了！“特斯拉才擁有最好的視訊生成技術”

繼續閱讀

0-3！中國女排喜訊不斷：頭号勁敵遭首敗，世界冠軍無奈兩連敗

翻燈寶馬8系“複活”！全球限量5台，單台售價16.2萬美元

郭有才一曲《諾言》漲粉超千萬，草根叙事為何屢試不爽？

BLG1:3不敵Gen慘遭雙殺，生死局偷家決策成敗筆，BP問題很大！

同樣是演「頭牌」，把王楚然和李純放一起，差距不是一星半點

突發12萬預售，續航2000km，比亞迪全新顔值中級車，真正C位大咖

這一夜：張天愛的「腰臀比」好假，唐嫣吸睛，誰和費翔站都尴尬啊

二手車商“集體破防”，合資中型SUV僅13萬，全系8AT，還配7座

“苦菜秀、靡草死、麥秋至”，解讀小滿節氣物候和傳統習俗

法甲收官：巴黎2-0梅斯76分奪冠姆巴佩缺席李剛仁傳射索萊爾破門

新聞8點見丨伊朗總統所乘直升機發生事故；“胖貓”事件詳情通報

賽季亞洲前5吳豔妮占3席，12秒80能晉級過去兩屆奧運會半決賽

人生小滿勝萬全：小滿包含了中國人的哲學智慧

3900 萬人圍觀雷軍直播試駕；馬斯克招募第二名腦機實驗患者；DeepMind 推出大模型危險性評估架構

黃家駒的弟弟黃家強智商感人，而且立場嚴重有問題，黃貫中等beyond舊成員和他長期以來不對付看來是有原因的！近日，黃家駒

汪小菲攜女友逛街被偶遇，主動開車門超貼心，馬筱梅背百萬包包