OpenAI Sora負責人專訪:20個問題深入研發細節,Sora仍是GPT-1時期

編譯 | 一支筆

編輯 | 雲鵬

智東西4月26日報道，AI生成視訊不僅是圖像生成器的更新，更是向AGI（通用人工智能）邁進的關鍵一步。在"No Priors"節目中，Sora團隊負責人Aditya Ramesh、Tim Brooks和Bill Peebles與主持人一起讨論了OpenAI最近宣布的生成式視訊模型——Sora。該模型能夠根據文本提示生成真實、視覺連貫且高清的視訊片段，最長可達一分鐘。

訪談中，三位負責人探讨Sora的開發過程，并就其潛在應用，如教育、娛樂、數字化身份等闡述各自的觀點。但目前團隊的重點仍在于技術的基礎開發，而不是特定的下遊應用。Brooks表示，雖然包括數字化身在内的想法很有意義，但團隊目前尚未探索這個問題。Brooks認為，Sora仍舊處于AI視訊模型的GPT-1時代。

此外，Ramesh談到，Sora的視覺美感引人注目，但其美學并未深深嵌入模型之中。在安全方面，Sora也面臨着錯誤資訊和攻擊性文字生成等挑戰。對此，他們将在確定模型為使用者提供實際價值的同時，采取一切可能的安全措施，防止生成深度僞造内容和誤導資訊。同時，逐漸開放技術，尊重使用者自由表達的權利。

Peebles則讨論了如何使這項技術更廣泛地普及，包括降低成本和處理可能出現的錯誤資訊和相關風險。Peebles提到，作為資料網絡（DN）的一部分，團隊必須考慮安全因素，并積極采取措施應對相關風險。而這些，已經成為團隊研究道路上的重要任務之一。

以下是Sora團隊負責人專訪中的20個問答，為友善閱讀，部分問題及回答在盡可能不違背原意的前提下進行了處理：

1、從文本到視訊，從AI到AGI的轉換，你們是如何開始研究這個領域的呢？

Peebles：我們堅信像Sora這樣的模型确實是實作AGI的關鍵步驟。我們認為一個很好的例子是一群人在東京的冬天穿行的場景，這是一個極其複雜的環境。在這種情況下，你可以想象一台錄影機飛過場景，許多人互相交流、說話、手牽手，以及附近的商販。這個示例說明了Sora如何在神經網絡權重範圍内模組化極其複雜的環境和世界。

要生成真正逼真的視訊，必須學習人們的工作方式、互動方式以及最終的思考過程。這不僅包括人類，還包括動物和其他需要模組化的物體。是以，随着我們繼續擴大像Sora這樣的模型，我相信我們将能建構類似世界模拟器的東西。

這意味着任何人都可以與其中的人物互動，我作為一個個體可以運作自己的模拟器，與模拟器中的人物進行互動。這種互動是通向AGI的路徑之一。随着我們未來擴大Sora的規模，我們将會看見AGI的實作。

2、在更廣泛地使用Sora之前，你需要進行哪些工作？

Brooks：我們真的希望能與OpenAI以外的人交流，并思考Sora将如何影響世界，以及它如何為人們提供幫助。目前，我們沒有制定産品的即時計劃，甚至沒有定制産品明确的時間表。但我們正在采取行動，向一群小藝術家和紅隊成員提供對Sora的通路權限，開始探索它可能産生的影響。

我們收到了來自藝術家的回報，了解到如何使Sora成為對他們最有用的工具。我們也收到了來自紅隊成員的回報，幫助我們確定安全，并考慮如何向公衆展示它。這些回報将為我們未來的研究制定路線圖，并指導我們是否最終推出該産品，以及具體的時間表。

3、你能分享一下你得到的回報嗎？

Ramesh：我們已經向一小部分藝術家和創作者開放了對Sora的通路權限，以獲得早期回報。我們認為最重要的是可控性。目前模型僅接受文本作為輸入。盡管這一功能已經相當有用，但它仍然受限于需要精确描述你想要的内容。是以，我們正在考慮如何在未來擴充模型的功能，以便接受除文本之外的輸入。

4、你們有沒有看見藝術家或其他人用它制作的最喜歡的東西，或者最喜歡的視訊，亦或你覺得鼓舞人心的事物？

Brooks：看到藝術家們如何運用這個模型真是太神奇了。我們對一些事情有自己的想法，但那些以制作創意内容為職業的人非常有創造力。例如，Shy Kids制作了一個非常酷的視訊，他們制作了短篇故事Airhead，這個角色有一個氣球，他們很喜歡這個故事。看到Sora能夠解鎖并讓這個故事更容易講述，簡直太酷了。我認為這與Sora制作某個特定剪輯或視訊無關，更多的是這些藝術家想要講述并能夠分享這個故事，而Sora可以幫助實作這一點。

Peebles：我個人最喜歡的樣本是我們創作的Bling Zoo。在我們推出Sora那天，我在Twitter上釋出了它。它本質上就是紐約動物園的多鏡頭場景，也是一家珠寶商店。你可以看到劍齒虎在這個閃閃發光的環境中仿佛成了裝飾品，這非常地超現實。

我喜歡這些樣本，因為作為一個喜歡創造内容但實際上沒有創作技能的人，通過操作這個模型，我很容易就能産生一大堆想法，并最終得到一些很棒的作品。而且，實際生成所需的時間相比于通過疊代提示生成内容而言要少得多。

是以，對我來說，操作這個模型非常有趣，并從中獲得想要的東西。我很高興看到藝術家們也喜歡使用這個模型，并從中獲得創造性的靈感。

5、我們何時能夠看到Sora或其他模型産生的實際内容，這些内容由專業人士制作，并成為更廣泛媒體類型的一部分？

Brooks：好問題。我對确切時間線沒有預測，但我對此非常感興趣，那就是除了傳統電影之外，人們可能會将其用于什麼。在未來幾年裡，我們或許會看到人們制作越來越多的電影，但我認為人們也會找到使用這些模型的全新方式，這些方式與我們習慣的目前媒體完全不同。當你告訴這些模型你希望看到什麼，并且它們能夠以一種非常不同的方式做出響應時，這就構成了一個非常不同的範式。

也許會出現一種全新的互動模式，類似真正富有創意的藝術家與内容互動的方式。是以，我對人們将要嘗試的全新創意感到非常興奮。這真的很有趣，因為與我們目前擁有的不同。

6、當你考慮這個世界模拟模型的功能時，你認為它會成為模拟的實體引擎嗎？人們實際上正在模拟風洞？它是機器人技術的基礎嗎？

Peebles：我認為你說到點子上了。對于像機器人這樣的應用，你可以從視訊中學到很多你不一定能從其他模式中學到的東西，就像OpenAI等公司過去投入了大量資金在這方面，如語言，手臂和關節在空間中移動的方式等類似的細節。

回到東京的那個場景，你可以觀察到腿是如何移動以及它們如何以實體上準确的方式與地面接觸。是以，在訓練中可以學到很多關于實體世界的知識。我們認為原始視訊對于諸如實體展現之類的事情的發展至關重要。

7、你能為廣大技術閱聽人解釋一下什麼是擴散Transformer嗎？

Brooks：Sora建立OpenAI的DALL-E模型和GPT模型的研究之上。擴散是一種資料生成過程，以我們的案例為例，即視訊生成。這個過程從噪音開始，通過反複多次去除噪音，直到最終去除了足夠多的噪音，隻生成一個樣本。這就是我們生成視訊的過程。我們從一段有噪音的視訊開始，逐漸去除噪音。

從架構角度來看，我們的模型必須是可擴充的，它們需要能夠從大量資料中學習，并了解視訊中那些非常複雜且具有挑戰性的關系，這一點至關重要。是以，我們采用了一種類似于GPT模型的架構，稱為Transformer。我們甚至釋出了一份關于Sora的技術報告，展示了在使用較少、中等和更多的計算量時，從同一提示中獲得的結果。

我們認為，随着我們不斷增加計算資源和資料，我們将不斷改進這些模型，使它們能夠勝任更多的任務，如更好的模拟和更長期的生成。

8、你可以給我們解釋一下這種模型的縮放定律是什麼嗎？

Peebles：這是一個很好的問題。正如Tim所提到的，使用Transformer的一個優點是，可以繼承我們在其他領域，例如語言中看到的所有優秀特性。是以，你可以開始提出視訊而不是語言的縮放法則。

這是我們團隊正在積極研究的事情，我們不僅在構模組化型，還使其變得更好。這意味着，我可以通過使用相同的訓練計算量，在不從根本上增加所需計算量的情況下，獲得更好的結果。這些是我們研究團隊每天都在解決的問題之一，以推動Sora和未來模型的發展。

9、在這個領域應用Transformer的問題之一就是标記化。還有，這個名字是誰想出來的呢？但像時空更新檔那樣科幻的名字真的很棒，你能解釋一下它是什麼以及為什麼它與此相關嗎？

Brooks：我不認為我們創造了這個名字，它更像是一個描述性的術語。LLM範式的關鍵成功之一就是token的概念。當你浏覽網際網路時，你會發現各種各樣的文本資料，包括書籍、代碼、數學等。語言模型的妙處在于它們有token這一單一概念，使得它們能夠在如此廣泛的資料上進行訓練。然而，在過去，視覺生成模型缺乏類似的概念。是以，在Sora之前，你會在256×256分辨率的圖像或256×256的視訊上訓練圖像生成模型或視訊生成模型，而這些視訊正好四秒長。

是以，在Sora中，我們引入了“時空更新檔”的概念。你可以把它想象成資料的表示方式，存在于圖像和長視訊中，就像一個高度堆疊的垂直視訊，你可以從中提取立方體。是以，Sora不僅可以生成720P分辨率的視訊，還可以生成垂直視訊、寬屏視訊，甚至可以生成圖像。這使得Sora成為第一個具有廣度的視覺内容生成模型，就像語言模型具有廣度一樣。這就是我們朝着這個方向邁進的真正原因。

8、如何将端到端深度學習應用于視訊？

Brooks：在Sora之前，許多處理視訊的模型實際上都在考慮擴充圖像生成模型，并在圖像生成方面取得了很多進展。許多人一直在嘗試使用圖像生成器并對其進行一些擴充，以便制作一些持續時間較長的視訊，而不僅僅是一張靜态圖像。

但對于Sora來說，真正重要的是架構的差異。我們并不是從圖像生成器開始，然後嘗試将其擴充為視訊生成器。相反，我們從一個更宏觀的問題出發：如何制作一分鐘的高清視訊剪輯。這就是我們的目标。當我們設定了這個目标時，我們意識到我們不能僅僅依賴于擴充圖像生成器。

為了制作高清素材，我們需要可擴充的東西，将資料分解成非常簡單的方式，以便我們可以使用可擴充的模型。是以我認為這确實是從圖像生成器到Sora的架構演變。這是一個非常有趣的架構，因為我們相信它不僅可以應用于視訊生成領域，還可以應用于其他許多領域。

當然，在最短的時間内，我們并不是第一個推出視訊生成器的人。很多人在視訊生成方面取得了令人印象深刻的進展。但是，我們更希望朝着更遠的未來目标努力。我們甯願選擇未來的一個點，然後花一年時間研究它。而且，我們有快速做事的壓力，因為AI發展太快了。

11、Sora引人注目的一個方面就是其視覺效果和美學。你能說說如何調整或打造Sora的美學嗎？

Ramesh：對于Sora，我們并沒有過多花費精力在美學上，世界本身就很美，但或許是一個很好的答案。實際上，Sora的語言了解允許使用者以一種更加直接的方式來引導它，這是其他模型很難做到的。使用者可以提供各種提示和視覺線索，以指導模型生成他們想要的内容類型。這種互動性使得使用者能夠更加靈活地與模型進行溝通，進而獲得更加符合其預期的生成結果。

我認為，未來的模型将會了解個人審美。我們接觸的許多藝術家和創作者都希望将他們的全部資産上傳到模型中，這樣在寫标題時就可以借鑒大量的作品，并讓模型了解他們設計公司幾十年來積累的術語等。是以，我認為個性化以及如何将它與美學結合在一起，将成為一件值得探索的很酷的事情。

12、我們能否得到一種與我們現在非常不同的娛樂範式？

Brooks：我覺得視訊模型的發展将引領着全新的娛樂、教育和溝通方式。娛樂是其中重要組成部分，但更深層次地，這些模型有望讓我們更深入地了解世界和我們的生活，以及如何通過視覺體驗它們。它們不僅可以為我們提供娛樂，還可以成為教育的有力工具。

有時候，定制的教育視訊可以是學習新事物的最佳途徑，而制作視訊來解釋觀點可能是與他人溝通的最有效方式。是以，我認為視訊模型存在更廣泛的潛在應用。

13、你們有嘗試過将這些技術應用于數字化身份等方面嗎？這是否會不太适用？因為它更像是文本到視訊的提示。

Brooks：到目前為止，我們的重點主要是在Sora的核心技術上，而不是在具體的應用方面。雖然包括數字化身在内的想法很有意義，但我們還沒有探索這個問題。我認為嘗試這些想法會很酷，但我認為我們現在在 Sora的軌迹中的位置，就像是這種新視覺模型範式的GPT-1。

14、你們是如何看待視訊模型引發有關安全性的問題，以及如何防止僞造、惡搞或其他類似問題？

Ramesh：這是一個非常複雜的問題。我認為我們可以從DALL-E3中學到很多相關措施，比如我們處理的色情或血腥圖像的方式。但肯定會出現新的安全問題，比如錯誤資訊，或者是否允許使用者生成具有攻擊性的内容。

一個關鍵問題是，部署這項技術的公司應該承擔多少責任？例如，公司是否應該通知使用者，他們看到的内容可能不是來自可信來源？還有多少責任應該由使用者承擔？這是一個棘手的問題，我們需要認真思考這些問題，以找到最好的解決方案。

15、過去，人們使用Photoshop處理圖像并釋出，提出索賠。人們并沒有說，Photoshop的制造商要為濫用該技術的人負責，你如何看待這些先例？

Ramesh：這很重要。我們希望人們能夠自由地表達自己，做他們想做的事情，但同時也需要負責任。逐漸釋放技術，并逐漸引導人們适應它，這是一個明智的方法。這樣可以確定技術的使用是負責任的，同時也尊重了使用者的自由表達權。

16、能介紹一下你們下一步或正在開發一些功能嗎？

Brooks：我對人們将如何利用我們的産品創造出新的東西感到非常興奮。我認為有很多才華橫溢、富有創造力的人都有自己想要創造的東西。但有時要做到這一點真的很困難，因為他們可能缺乏必要的資源、工具或其他東西。這項技術有可能讓許多才華橫溢、富有創造力的人創造出他們想要的東西。我真的很期待他們将要制作出什麼了不起的東西，以及這項技術将如何幫助他們。

17、除了長度等顯而易見的問題之外，你能描述一下你們想要解決的局限性是什麼嗎？

Peebles：為了使這項技術更加普及，我們需要考慮多個因素。其中一個重要的因素是降低成本，以便更多人能夠承擔。我們都知道，在視訊生成領域，确切的參數設定對結果影響很大。你知道你正在建立的視訊的分辨率和持續時間，但是你也知道生成過程不是即時的，需要等待幾分鐘，尤其是對于較長的視訊。

是以，我們積極努力降低線程成本，以實作更廣泛的普及。作為資料網絡（DN）的一部分，我們也必須考慮安全因素，特别是在選舉年。我們非常謹慎地處理潛在的錯誤資訊，并積極采取措施來應對周圍的風險。今天，解決這些問題已成為我們研究道路上的重要任務之一。

18、對于Sora未來的研究方向，你有什麼想說的？

Brooks：我們希望，Sora能夠通過分析所有視覺資料，實作對世界有更深入的了解，甚至能夠了解3D。這是非常令人興奮的，因為我們并沒有直接将3D資訊輸入其中，而是讓它通過觀察視訊資料自行學習。它能夠了解在視訊中存在的3D結構，比如，它知道了當你咬下一口漢堡時，會留下咬痕。

是以，它對我們的世界有了更深入的了解。當我們與世界互動時，大部分資訊都是視覺的，我們所學習的也是視覺資訊。是以，我們确實相信，引領AI模型變得更智能、更優秀，讓它們像我們一樣了解世界是非常重要的。我們的世界充滿了複雜性，有很多關于人們如何互動、事情如何發生、過去的事件如何影響未來的事件的内容，這實際上會導緻比生成視訊更廣泛的更智能的AI模型。

人類的許多智慧實際上與我們對世界的模組化有關。每當我們考慮如何行動時，我們都會在腦海中構想場景，憑借着想象力演繹各種可能情景。在實際行動之前，我們會思考：“如果我這樣做，會發生什麼？如果我那樣做，會有什麼後果？”是以我們有一個世界模型，将Sora建構為世界模型，與人類擁有的大部分智能非常相似。

19、我們是如何讓Sora擁有與人類非常相似的世界模型，而不是像實體引擎那樣完全精确的東西呢？

Peebles：我們知道，人類的認知并不總是十分準确，是以我們無法做到完全精确。當我們深入研究一組非常狹窄的實體規律，并進行長期預測時，我們可以通過一些系統來改進我們的了解。

是以，我們對Sora的前景持樂觀态度，認為它能夠在某一天取代這種能力。從長遠來看，我們希望它能夠比人類更好地扮演世界模型的角色。但是，我們也必須認識到，對于其他類型的智能來說，這種能力并不總是必需的。盡管如此，對于Sora和其他模型來說，未來仍然會有改進的空間。

20、你認為公衆對視訊模型有什麼誤解嗎？

Ramesh：對于公衆來說，Sora的釋出可能是最大的更新。正如Bill和Tim所說，在内部，我們一直在将Sora與GPT模型進行比較。當GPT-1和GPT-2問世時，人們開始越來越清楚地認識到，隻需擴大這些模型的規模就能賦予它們驚人的能力。

目前還不清楚，擴大下一個标記預測的規模是否會産生一個有助于編寫代碼的語言模型。對我們來說，很明顯，将同樣的方法應用于視訊模型也會帶來非常驚人的能力。我認為Sora 1的釋出證明了這一點，現在我們站在了縮放曲線上的一個關鍵點。我們對此感到非常興奮。

Peebles：正如Tim和Aditya所暗示的那樣，我們确實覺得視訊模型正處于GPT-1的時刻，但這些模型很快就會變得更好。我們對此感到非常興奮，因為我們相信，這将為創意世界帶來難以置信的好處。

雖然實作AGI還需要時間，但我們正在努力確定安全問題得到充分考慮，并建立一個強大的技術基礎，以確定社會真正從中受益，同時減輕潛在的負面影響。盡管我們面臨挑戰，但現在确實是一個令人振奮的時刻，我們迫切地想要知道未來模型能夠實作什麼。

來源：No Priors

本文來自微信公衆号“智東西”（ID：zhidxcom），作者：夏秋麗，36氪經授權釋出。

OpenAI Sora負責人專訪:20個問題深入研發細節,Sora仍是GPT-1時期

繼續閱讀

解讀｜GPT-4o為OpenAI開啟超級入口，對谷歌形成挑戰？

OpenAI釋出最新旗艦生成式AI模型GPT-4o 改進文本、視覺和音頻功能

OpenAI曾秘密測試GPT-4o，登頂聊天機器人競技場排行榜

最強OpenAI釋出新ChatGPT-4o，AI領域的突破情感識别+視覺了解

OpenAI推出全新大語言模型GPT-4o；蘋果将在中國開售Vision Pro；軟銀幾乎全部出售阿裡股份

OpenAI新品釋出，三個關鍵或将颠覆營銷圈

OpenAI一夜改寫曆史；加稅100%，美國要對中國汽車動手……

OpenAI推出最新大模型“GPT-4o”，你的快樂悲傷它都能讀懂

GPT-4調教指令揭秘，OpenAI又Open了一回！網友線上追問GPT-5

OpenAI深夜炸場，GPT-4o幹翻所有語音助手！璩靜離職後發聲

OpenAI深夜釋出GPT-4o！跟所有公司、所有企業主都有關！

OpenAI一夜幹翻語音助手！ChatGPT學會看螢幕，現實版Her來了

OpenAI放王炸，全球“AI月”來了！A股多模态AI概念股拉升，多隻遊戲股漲停

人工智能也能提供“情緒價值”了，OpenAI釋出全新大模型GPT-4o

突發！OpenAI首席科學家llya離職，一個讓馬斯克與佩奇決裂的男人

OpenAI内鬥風波關鍵人物離職！保守派力量削弱、OpenAI将加快商業化嗎？