天天看點

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

【新智元導讀】剛剛,OpenAI釋出首個AI視訊模型Sora,60秒的一鏡到底,神級效果生成。網友紛紛驚呼AI視訊要變天。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

新智元報道

編輯:編輯部

卷瘋了卷瘋了,短短十幾小時内,OpenAI和谷歌接連釋出核彈級成果。

國内還沒睡的人們,經曆了過山車般的瘋狂一晚。

就在剛剛,OpenAI突然釋出首款文生視訊模型——Sora。簡單來說就是,AI視訊要變天了!

它不僅能夠根據文字指令創造出既逼真又充滿想象力的場景,而且生成長達1分鐘的超長視訊,還是一鏡到底那種。

Runway Gen 2、Pika等AI視訊工具,都還在突破幾秒内的連貫性,而OpenAI,已經達到了史詩級的紀錄。

60秒的一鏡到底,視訊中的女主角、背景人物,都達到了驚人的一緻性,各種鏡頭随意切換,人物都是保持了神一般的穩定性。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

OpenAI究竟是怎麼做到的?根據官網介紹,「通過一次性為模型提供多幀的預測,我們解決了一個具有挑戰性的問題。」

顯然,這個王炸級技術有着革命般的意義,連Sam Altman都沉迷到不能自拔!

他不僅瘋狂發推安利,而且還親自下場為網友生成視訊:你們随意來prompt,我一一輸出。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

一位戴着尖頂帽,身披繡有白色星星的藍色長袍的巫師正在施法,他的一隻手射出閃電,另一隻手中拿着一本舊書。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

在一間擁有電影級燈光設定的充滿托斯卡納鄉村風情的廚房裡,一位擅長利用社交媒體的奶奶,正在教你制作美味的自制諾奇面。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

我們将帶你進行一次未來城市的街頭巡覽,在這裡,高科技與自然和諧共處,展現出一種獨特的賽博朋克風格。

這座城市潔淨無瑕,到處可見的是先進的未來式有軌電車、絢麗的噴泉、巨型的全息投影以及四處巡邏的機器人。

想象一下,一個來自未來的人類導遊正帶領一群好奇的外星訪客,向他們展示人類極緻創造力的結晶——這座無與倫比、充滿魅力的未來城市。

多項技術破紀錄

借助于對語言的深刻了解,Sora能夠準确地了解使用者指令中所表達的需求,把握這些元素在現實世界中的表現形式。

也是以,Sora創造出的角色,能夠表達豐富的情感!

它所制作出的複雜場景,不僅可以包括多個角色,還有特定的動作類型,以及對對象和背景的精确細節描繪。

看,下圖中人物的瞳孔、睫毛、皮膚紋理,都逼真到看不出一絲破綻,完全沒有AI味兒。

從此,視訊和現實究竟還有什麼差别?!

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic

此外,Sora還能在同一視訊中設計出多個鏡頭,同時保持角色和視覺風格的一緻性。

要知道,以前的AI視訊,都單鏡頭生成的。

而這次OpenAI能在多角度的鏡頭切換中,就能實作對象的一緻性,這不得不說是個奇迹!

這種級别的多鏡頭一緻性,是Gen 2和Pika都完全無法企及的……

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

舉個例子:「雪後的東京熙熙攘攘。鏡頭穿過繁忙的街道,跟随着幾位享受着美麗雪景和在附近攤位購物的人們。美麗的櫻花瓣伴随着雪花在風中飄舞。」

Sora根據這個提示所呈現的,便是東京在冬日裡夢幻的一幕。

無人機的鏡頭跟随一對悠閑散步的情侶穿梭在街道上,左側是車輛在河岸路上行駛的聲音,右側是顧客在一排小店之間穿梭的景象。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

可以說,Sora的效果已經領先到了恐怖的級别,完全跳出了用冷兵器短兵相接的時代,其他AI視訊被徹底幹趴。

世界模型成真了??

最最最可怕的一點來了,Sora身上,竟已經有了世界模型的雛形?

通過觀察大量資料,它竟然學會了許多關于世界的實體規律。

下面這個片段太令人印象深刻了:prompt中描繪了「一個短毛絨怪物跪在一支紅蠟燭旁的動畫場景」,同時描述了怪物的動作和視訊的氛圍。

随後,Sora就創造了一個類似皮克斯作品的生物,它似乎融合了Furby、Gremlin和《怪獸公司》中Sully的DNA。

讓人震驚的是,Sora對于毛發紋理實體特性的了解,準确得令人驚掉下巴!

想當初,在《怪獸公司》上映時,皮克斯為了創造出怪物在移動時超級複雜的毛發紋理,可是費了好大一番功夫,技術團隊直接連肝幾個月。

而這一點,Sora輕而易舉地就實作了,而且從沒有人教過它!

「它學會了關于 3D 幾何形狀和一緻性的知識,」項目的研究科學家Tim Brooks表示。

「這并非我們預先設定的——它完全是通過觀察大量資料自然而然地學會的。」

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

得益于DALL·E 3所使用的擴散模型,以及GPT-4的Transformer引擎,Sora不僅能夠生成滿足特定要求的視訊,而且能夠展示出對電影拍攝文法的自發了解。

這種能力展現在它對講故事的獨特才能上。

例如,在一個以「色彩缤紛的魚類和海洋生物充斥的,由紙藝精心建構的珊瑚礁世界」為主題的視訊中,項目研究員Bill Peebles指出,Sora通過其攝影角度和拍攝時機,成功地推進了故事的發展。

「視訊中實際上發生了多次鏡頭轉換——這些鏡頭并非後期拼接而成,而是模型一氣呵成地生成的,」他解釋道。「我們并沒有特别指令它這麼做,它卻能自動完成。」

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.

不過,目前的模型并不完美。它在模拟複雜場景的實體效果上可能會遇到難題,有時也難以準确了解特定情境下的因果關系。比如,某人吃掉餅幹的一部分後,餅幹可能看起來仍然完整無損。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗
世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

此外,模型在處理空間細節,如區分左右時可能會出錯,也可能在描述随時間變化的事件,如特定的攝影機動作軌迹時,表現不夠精确。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗
世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

好在,它還并不完美。

否則,虛拟和現實的界限,還能區分得清嗎?

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

這不是現實?

但是無可否認的是,可怕的事實已經就在面前:一個已經能夠了解和模拟現實世界的模型,也就意味着AGI已經不遠了。

「唯一真正的視訊生成工作」

業内大佬張啟煊評價道,「Sora是我目前看到唯一跳脫出空鏡頭生成、真正的視訊生成工作。」

在他看來,目前看來Sora跟Pika、Runway是有代差的,視訊生成領域終于被OpenAI支配。或許某天3D視訊領域,有朝一日也能體會到這種恐懼。

網友們都被震驚到失語:「下一個十年會是瘋狂的十年。」

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

「都結束了,我的飯碗要丢了。」

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

「整個素材行業都會随着這篇成果的釋出而消亡……」

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

OpenAI就是沒法停下幹死初創公司的腳步,是嗎?

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

「好萊塢即将發生核爆」。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

AI電影制作人和他們目前的項目。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

技術介紹

Sora是一種擴散模型,它能夠通過從一開始看似靜态噪聲的視訊出發,經過多步驟的噪聲去除過程,逐漸生成視訊。

Sora不僅能夠一次性生成完整的視訊,還能延長已生成的視訊。

通過讓模型能夠預見多幀内容,團隊成功克服了確定視訊中的主體即便暫時消失也能保持一緻性的難題。

與GPT模型類似,Sora采用了Transformer架構,進而實作了卓越的性能擴充。

OpenAI把視訊和圖像分解為較小的資料單元——「patches」,每個「patches」相當于GPT中的一個「token」。

這種統一的資料表示方法能夠在更廣泛的視覺資料上訓練擴散Transformer,覆寫了不同的持續時間、分辨率和縱橫比。

Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技術,通過為視覺訓練資料生成較長的描述的标題,使模型更加準确地遵循使用者的文本指令生成視訊。

除了能根據文本指令生成視訊外,這款模型還能将現有的靜态圖像轉化成視訊,精确細緻地賦予圖像中内容以生動的動畫。模型還能擴充現有視訊或補全缺失的幀。

Sora為了解和模拟現實世界的模型奠定了基礎,對此OpenAI認為這是實作通用人工智能(AGI)的重要步驟。

作品欣賞

一列火車穿越東京郊區時,窗戶上反射出的迷人景象。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.

在雪地草原上,幾隻巨大的羊毛猛犸象緩緩前行,它們長長的毛皮在微風中輕輕飄揚。遠處是雪覆寫的樹木和雄偉的雪山,午後的陽光穿透薄雲,給這個場景增添了一抹溫暖的光彩。低角度的拍攝令這些龐大的毛茸茸動物顯得尤為壯觀,景深效果引人入勝。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

無人機從空中俯瞰大蘇爾加雷角海灘附近的崎岖懸崖,海浪沖擊着岩石,形成白色的浪尖,落日的金色光輝照亮了岩石海岸。遠處有一個小島上立着燈塔,懸崖邊緣覆寫着綠色植被。從道路到海灘的陡峭下降和懸崖邊緣凸出的景象,展現了海岸的原始美麗和太平洋海岸公路的崎岖風景。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.

藍色時刻下的聖托裡尼島航拍視圖,展現了白色基克拉迪建築和藍色圓頂的絕美建築。火山口的景色令人歎為觀止,燈光營造出一種美麗而甯靜的氛圍。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: Aerial view of Santorini during the blue hour, showcasing the stunning architecture of white Cycladic buildings with blue domes. The caldera views are breathtaking, and the lighting creates a beautiful, serene atmosphere.

一位20多歲的年輕人坐在天空中的一朵雲上,沉浸在書本中。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: A young man at his 20s is sitting on a piece of cloud in the sky, reading a book.

一群活潑的金毛尋回犬小狗在銀白色的雪地上嬉戲,它們好奇的小腦袋時而從雪地中探出,被雪花點綴,萌态十足。

Prompt: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.

在意大利布拉諾一排排鮮豔的彩色建築中,一隻可愛的斑點狗正通過窗戶好奇地望向外面。與此同時,街道上人來人往,有的步行,有的騎行。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: The camera directly faces colorful buildings in burano italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.

一幅充滿勞工、裝置和重型機械的建築工地的移軸攝影。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: Tiltshift of a construction site filled with workers, equipment, and heavy machinery.

在一個培養皿中,生長着一片竹林,其中小熊貓們在歡快地奔跑。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: A petri dish with a bamboo forest growing within it that has tiny red pandas running around.

一隻卡通袋鼠正在迪斯科舞池中跳舞。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: A cartoon kangaroo disco dances.

在一杯咖啡中,兩艘海盜船展開了激烈的戰鬥,超寫實的近景視訊。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

大佬猜測:遊戲引擎加持?

Pytorch聯合創始人Soumith Chintala猜測道,「根據Sam Altman釋出的所有使用者請求視訊,Sora似乎是由遊戲引擎提供支援,并為遊戲引擎生成作品和參數」。

英偉達進階科學家Jim Fan對全新Sora模型,發表了一些自己的觀點:

Sora是一個資料驅動的實體引擎。它是對許多世界的模拟,無論是真實的,還是虛構的。該模拟器通過去噪和梯度學習方式,學習了複雜的渲染、「直覺的」實體、長期推理和語義了解。

如果Sora使用虛幻引擎5接受過大量合成資料的訓練,我不會感到驚訝的。必須如此!

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

同樣,愛丁堡大學的博士生Yao Fu表示,「生成式模型學習生成資料的算法,而不是記住資料本身。就像語言模型編碼生成語言的算法(在你的大腦中)一樣,視訊模型編碼生成視訊流的實體引擎。語言模型可以視為近似人腦,而視訊模型近似實體世界」。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

重塑視訊行業

雖然,文本轉視訊技術要威脅到傳統電影制作,可能還需要很長時間——

你無法通過簡單地将120個Sora生成的一分鐘視訊拼接起來制作出連貫的電影,因為這些模型無法確定内容的連續性。

世界模型來了?OpenAI首個AI視訊模型炸裂登場,徹底端掉行業飯碗

但是,這并不妨礙Sora和類似的程式徹底改變TikTok等社交平台。

「制作一部專業電影需要大量的昂貴裝置。」Peebles 說,「這個模型将讓普通人在社交媒體上制作出高品質的視訊内容成為可能。」

參考資料:

https://twitter.com/OpenAI/status/1758192957386342435

https://openai.com/sora

繼續閱讀