Sora訓練資料疑暴露,網友:絕對用了UE5
白交 衡宇 發自 凹非寺
量子位 | 公衆号 QbitAI
好消息,好消息,真·Sora視訊上新了!走過路過不要錯過!
(不用苦苦等候,或撐大眼睛費勁吧啦鑒别真假Sora産品了)。
就在過去短短幾個小時裡,包括Bill Peebles、Tim Brooks兩位負責人在内的從業人員唰唰唰N連發。
(好了好了,知道你們是好朋友)
不僅有前所未的多視角、新功能展現,最重要的是,各個視訊的呈現效果依然處于令人驚歎的段位。
比如Go Pro視角下潛水去探索沉船。
比如下面這段視訊,效果跟此前寫實、逼真的畫風有點不一樣,而且Sora産出的是同一片段的不同視角畫面。
它的提示詞是:精心制作的立體模型,描繪了日本江戶時代的甯靜場景。傳統的木結建構築。一個孤獨的武士,穿着複雜的盔甲,緩慢地穿過城鎮。
另外比較驚豔的還有一頭大眼睛、長睫毛、口噴冷氣的小白龍,就是下面這位:
有人嘗試用同樣的prompt在DALLE·3上畫畫,得到的結果是這樣的:
就,還挺神似!
但Sora小白龍的效果讓某種聲音越來越大,那就是:
好家夥,我一眼就看出這玩意兒有虛幻引擎的影子!
不過,這波視訊還是惹得網友們wow wow的,不停驚歎,怎麼Sora每波視訊效果都越來越好了?
我的天爺啊,等Sora公測開放等得大家一天隻能吃下三頓飯了!
有的網友超級激動,已經在知名新産品挖掘平台ProductHunt上給Sora的API站好了坑。
萬事俱備,隻欠東風。
官方新視訊再流出
首先來看看Sora這波上新,此次最驚豔的是由玻璃制成的烏龜,日落時分在沙灘上爬行。
不過也有細心的網友發現:“我隻看到了三條腿…”“前面兩條腿更像烏龜的腳蹼”
而在Midjourney上使用相同的提示,效果是這樣的。
另外,多個視角展現也成為了此次上新的亮點。
比如在夏威夷玩跳傘。
提示詞:a man BASE jumping over tropical hawaii waters. His pet macaw flies alongside him(一名男子在夏威夷熱帶海域進行低空跳傘,他的寵物金剛鹦鹉與他并肩飛翔)
甚至還有F1賽車手的視角。
此外,Sora還暴露了一些類似剪輯的新功能——無縫銜接。
此前看到,它能通過文本、圖像或視訊輸入對模型進行提示。
如今發現,它還可以在兩個輸入視訊之間逐漸進行插值。兩個毫不相幹的Sora視訊,結果無縫過渡成了新視訊。
咳咳,不過水下為啥會有蝴蝶??
不過由于悉數都是Sora團隊成員釋出的視訊,有網友覺得,除非有個非OpenAI從業人員才測試,不然Sora就是個vaporware(霧件)
這些案例中,也有被認為翻車的……
提示詞:a dark neon rainforest aglow with fantastical fauna and animals(黑暗的霓虹雨林,閃爍着奇幻的動物和動物的光芒)
網友表示:為什麼會是矢量動畫的風格,提示中根本并沒有這樣的提示。
這是我見過Sora最糟糕的例子
“我不是專家,但這絕對用了UE5”
與此同時,關于Sora所生成視訊的讨論重心,逐漸從“這不符合實體世界的規律”,轉移到更深層次——
關于其背後訓練資料來源的讨論。
現在的民間主流說法(doge)是:
這絕對用了3D引擎/UE5來訓練的!
英偉達科學家、大家夥熟悉的老盆友Jim Fan老師就在首日猜測過,稱Sora雖然沒有明确表示調用了UE5,但極有可能把用UE5生成的文本、視訊當作合成資料,添加到自個兒的訓練集中。
也有一位前谷歌從業人員對Sora這次的新視訊進行了線上銳評:
Sora這效果,我真的認為需要3D引擎+生成式AI結合,才能實作這樣的一緻性和視訊品質。
事實證明,就是得要更多的資料和計算……
倒不是Jim Fan等人的一家之言。早在第一波Sora視訊亮相時,這種聲音就第一時間起來了,聲量還很不小。
再多舉個例子。
一位從事資料科學和ML的推友羅列出了自己站隊這種觀點的“證據”。
他亮出的牌是漫步櫻花街頭的那段視訊。
然後配文道:“視訊中移動的人似乎與UE5示範中的人類的移動方式非常相似。現實中的人走路逛街,并不會老用一個恒定的速度。”
也有人質疑這種說法,畢竟Youtube等網際網路上擁有數十億(可能還不止)小時的視訊片段,幹啥要用虛幻引擎來增加工作量呢?
于是就有人把“汽車行駛”的視訊片段丢到上面這位推友小哥面前,說這看起來也不像是用了3D引擎搞的呀!
小哥友好地嘚吧嘚嘚吧嘚,開始了自己的分析:
“我不是專家……但感覺UE讓汽車行駛掀起的塵土,隻在後輪部分有。但其實作實情況中,前輪部分也會揚起塵沙。”
當然也有不少人贊同他,附和道:
雖然不一定用的是UE5吧……但事實确實是,用數字孿生模拟可能效果和效率都更好。
而且這樣還能用較少的IRL資料進行更高品質的資料采樣。
以及還有人把自己了解中Sora的pipeline都列到推特上了。
這種讨論大規模流傳開後,不少人對Sora可能是“UE5+AIGC”産生的效果嗤之以鼻。
“哼!我話放在這兒,合成資料是視覺機器學習的作弊代碼!!”
同時有人從這種讨論中看到了不久之後的一種可能性。
即未來的生成不是通過模拟真實實體來呈現,而是通過訓練模拟實體模拟(即現實世界)的模型來呈現。
嗯……咱就是說,誰能一口否定沒有這種可能呢?
One More Thing
Sora上新視訊後,有網友急沖沖去問了另一家AI視訊生成頭部玩家Runway的首席執行官。
“最近幾個月,有釋出新版本的打算嗎?就是品質接近Sora的那種~”
Runway CEO冷冷回了一個詞兒:
better
參考連結:
[1]https://twitter.com/minchoi/status/1761367515777695965