今年不懂這個詞，你有可能失業

兩隻金毛犬在山頂上錄制播客，會是一個怎樣的場景？

中原標準時間2月16日，網友在社交媒體上寫下對AI模型Sora的這一文字提示，OpenAI首席執行官山姆·奧特曼将其輸入Sora，生成了一個10秒的高清視訊，并将其釋出在社交平台。畫面中，兩隻金毛犬頭戴耳機，面前立着兩個話筒，放松地蹲坐在山間一塊紅白相間的野餐布上。金毛犬的毛發光澤、周圍的山頂環境非常逼真，幾乎和電視紀錄片别無二緻。

Sora根據“兩隻金毛犬在山頂上錄制播客”生成的視訊圖源：視訊截圖

繼AI生成文字和圖檔後，OpenAI正式涉足視訊生成領域。中原標準時間2月16日淩晨，OpenAI釋出首個AI 文字生成視訊模型Sora，使用者隻需用文字描述一個場景，Sora便可生成一個時長最高可達1分鐘的視訊。OpenAI僅在官網釋出數十個Sora視訊，目前，該功能尚未向公衆開放，僅面向安全人員，還将向特定藝術家、設計師提供通路權限。但Sora視訊對文字提示的超高還原，迅速引爆網絡。有網友感慨，“Sora要革影視行業的命”“它将把視訊内容帶入‘零基礎創作’時代”。AI和現實的界限已很難厘清，“現實，不存在了”。

英偉達的工程師王帥在Sora釋出後驚歎，這是“又一個ChatGPT 時刻”。他在接受《中國新聞周刊》采訪時提到，Sora顯著提高了AI文字生成視訊的能力上限，這無疑是業内共識。但Sora的産品和商業化路徑是什麼，産品如何産生價值，目前業内仍有分歧。“技術能力提高，并不意味着它能解決所有問題，幫好萊塢導演直接拍電影，不需要攝像，還遠沒有到那一步。”

Sora效果為何遠超其他模型？

即使不關注大模型技術的人，這兩天也會注意到這個社交網絡上廣為流傳的59秒視訊：一位戴墨鏡、身穿紅裙皮衣、踩着皮靴的女人，漫步在東京街頭，鏡頭流暢地推到了她的臉部，你可以清晰地看到她臉上的雀斑和皮膚紋理。這個一鏡到底的視訊不需要人來拍攝和剪輯，隻要把一段描述輸入Sora後由AI直接生成。

由Sora生成的視訊截圖，提示詞為：一位時尚女性走在充滿溫暖霓虹燈和動畫城市标牌的東京街道上。她穿着黑色皮夾克、紅色長裙和黑色靴子，拎着黑色錢包。她戴着太陽鏡，塗着紅色口紅。她走路自信又随意。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果。許多行人走來走去。圖源：OpenAI官網

1分鐘的視訊并不長，但對于AI文字生成視訊可以算是巨大飛躍。過去一年多，ChatGPT、Midjourney等現象級爆款應用橫空出世，AI 生成文字、生成圖檔技術的飛速發展讓人興奮，相比之下，AI生成視訊領域雖有Runway、Pika 、Meta、谷歌等多個明星公司入局，但因技術難度更大，發展仍處于早期。2023年12月，谷歌團隊釋出視訊生成模型VideoPoet，一次能生成10秒超長、連貫大動作的視訊，超過其他智能生成3～4秒的模型，已足以讓業内振奮。

清華大學智能産業研究院首席研究員聶再清向《中國新聞周刊》解釋，在此之前，文字生成視訊的時長短，一大原因在于，AI不知道接下來要發生什麼，因而不知道該生成怎樣的内容。

Sora的視訊更長，觀衆也明顯感受到其更加符合邏輯，因為它一定程度上“展現”了對現實世界的了解能力。在OpenAI公開釋出的一個視訊中，複古SUV在陡峭的山路上行駛，車身自然颠簸，輪胎揚起灰塵，是以，更讓人信服。OpenAI将這一能力稱為“世界模型的雛形”。英偉達人工智能研究院首席研究科學家Jim Fan也在社交平台感歎，Sora并不隻是創意玩具，而是一個資料驅動的實體引擎，可以對真實或虛拟世界進行模拟。

由Sora生成的視訊截圖。提示詞為：鏡頭跟随一輛帶有黑色車頂行李架的白色老式SUV，它在陡峭的山坡上一條被松樹環繞的陡峭土路上加速行駛，輪胎揚起灰塵，陽光照射在SUV上行駛土路，給整個場景投射出溫暖的光芒。土路緩緩地蜿蜒延伸至遠方，看不到其他汽車或車輛。道路兩旁都是紅杉樹，零星散落着一片片綠意。從後面看，這輛車輕松地沿着曲線行駛，看起來就像是在崎岖的地形上行駛。土路周圍是陡峭的丘陵和山脈，上面是清澈的藍天和縷縷雲彩。

聶再清介紹說，世界模型可以簡單了解為，AI對真實世界模組化，能還原對現實世界中人和物的了解，“比如拿一個紙杯，AI‘知道’很輕，如果這個杯子是鐵做的，它會很重，如果一個人開車逆行，其他車輛會吓得減速或避讓”。

Sora能做到準确了解文字含義，并呈現逼真的畫面，在于和ChatGPT一樣的邏輯，即“大力出奇迹”。聶再清提到，此前，文字生成視訊的挑戰在于，用于練習模型的視訊，需要将分辨率、長寬比、時長等調整為統一格式，便捷性不夠。Sora提出用時空視覺patch（更新檔）将不同的視訊資料轉化成統一的視覺資料表示，patch即相當于訓練ChatGPT過程中用到的token（文本的最小單元），每個視訊不用修改格式，而是先壓縮，提取時間和空間節點的資料，直接輸入模型學習。OpenAI官方介紹，Sora可以采樣寬屏1920x1080p、垂直1080x1920p以及介于兩者之間的所有視訊。采樣更加靈活，視訊的資料量也會增加。

此外，訓練文本生成視訊，需要大量帶有字幕的視訊資料。OpenAI利用了DALL·E 3和GPT模型，為訓練的視訊集中生成字幕，可以提高文本保真度以及視訊的整體品質。

但在王帥看來，模型技術實際上是個公開的秘密，Sora的能力之是以如此驚豔，更關鍵的是OpenAI喂給模型的資料，“他們到底用了多大規模的資料，資料如何選擇，這些在OpenAI的報告中隻是點到為止，幾乎沒有任何細節，但隻有業内人士知道，這才是關鍵”。

紐約大學計算機科學助理教授謝賽甯是機器學習領域知名學者，他是擴散模型（diffusion）一篇重要論文的主要作者之一，Sora便是一個擴散模型，同時結合了ChatGPT使用的底層模式Transformer，在視覺領域實作突破。謝賽甯在社交媒體上也直言，OpenAI完全沒有談論資料來源和建構，這可能暗示資料才是Sora成功最關鍵的因素。他猜測，OpenAI可能用到了遊戲引擎資料，以及電影、紀錄片、電影長鏡頭等，資料的品質非常重要。

Sora仍存在明顯弱點

“你可以準确地畫出你的想法，然後将其變為現實。”正如參與設計Sora的OpenAI工程師蒂姆·布魯克斯所言，Sora降低了視訊制作的技術門檻，但對于講故事能力的要求有所提高。人們不免擔憂，Sora的出現，對于好萊塢電影工業會産生重大影響，導演、攝像、化妝、道具、剪輯、配音等一大批從業人員或将失業。

一位不願具名的AI産業研究者在接受《中國新聞周刊》采訪時提到，生成視訊工具不等于會講故事的導演、編劇，就像印刷術不能替代李白、杜甫，是以視訊的大規模生成，隻是顯著降低批量生産的門檻與成本，視訊作品的創意性、故事性、藝術性，将在更加海量的作品競争中要求越來越高。

現階段，Sora仍存在明顯的弱點。在社交媒體上，蒂姆·布魯克斯根據提示語“人們在海灘放松，然後一條鲨魚從水中跳了出來，讓所有人大吃一驚”，釋出了由Sora生成的視訊。視訊中，一位女性看到鲨魚後扭頭求救，但因扭頭角度過大，被網友戲谑是“做了驅魔人式的180度旋轉”。OpenAI也公開承認Sora目前的局限性，它不能時刻準确模拟實體世界的互動規律。比如，在它生成的視訊中，一個人在跑步機上反向跑步，一些實體場景中，人或動物會自發冒出來，甚至AI将一把椅子模組化成了一個柔性的物體。

OpenAI科學家蒂姆·布魯克斯在社交媒體釋出的由Sora生成的視訊截圖，由于視訊中女性扭頭角度過大，被網友戲谑是“做了驅魔人式的180度旋轉”。圖源：視訊截圖

在聶再清看來，現在人們看到的都是由OpenAI挑選後發出的視訊，大家覺得很驚豔，但到底還有多少不完善之處，不能完全确定，還要等釋出更多視訊才知道真正效果。

不同于一些技術從業者的樂觀和興奮，王帥對Sora模型的認知更為冷靜。他更在意Sora這類模型如何落地。最近有人向他詢問，Sora生成的視訊中，人和車輛那麼自然，模型是怎麼控制每個物體的？但實際上，模型運作的方式與人類思考的方式截然不同，模型根本不知道有物體存在，是大資料告訴它每一部分要做成什麼樣子。生成視訊依靠的是巨大的資料，如果有足夠資料，便會更好生成視訊。但未來在編輯視訊時，可能會出現資料分布之外的情況，如果資料沒有覆寫到，生成效果可能不盡如人意。

王帥進一步解釋說，不隻是要資料規模大，還要有更好的資料細節，“人們使用模型生成了一個效果很好的60秒視訊，但這還沒有結束，人們後期如果想做視訊編輯，比如摘掉那位東京街頭漫步的女士的墨鏡，如果訓練資料中沒包含這一動作的視訊，或很少見，模型可能做不到這一指令，或者做得效果很差。是以，在測試時，需要做非常多的調試工作，是非常耗時耗力的事情。”王帥提到，Sora的學習邏輯與ChatGPT是相通的，模型學到了足夠多的資料，因而掌握了資料間的規律。但這仍和通用人工智能有差別—— Sora本質上還是在模仿訓練資料中的視訊。

“一段文字提示，模型中可能會對應由上千萬的視訊，目前OpenAI呈現了一個看起來足夠好的視訊，大家就覺得這個模型很厲害，但你不知道它能不能很好地生成其他視訊。”王帥提到，這就像是一個問題有100個答案，但它隻給出一個正确答案，這意味着大模型就會做這個題了嗎？不是，除非它也能把剩下99個答案都告訴你，才說明它的了解沒有問題。

至于是否會颠覆影視行業，在王帥看來，大家現在猜測一些大方向，但很可能答案是在意料之外。“谷歌剛成立時，人們不會想到它會以做廣告盈利，人們最初對Facebook改變社交方式寄予厚望，但不會想到它未來洩露使用者資料隐私的醜聞，AI技術亦是如此。多位技術人員認為隻要解決技術難題就可以了，不是這樣的。技術在商業和社會層面将會帶來怎樣的影響，是一個極其複雜的系統，很難單獨用技術邏輯來了解。”

（王帥為化名。）

記者：楊智傑

編輯：杜玮

今年不懂這個詞，你有可能失業

今年不懂這個詞，你有可能失業

繼續閱讀

下月起！政府發文：機器人逐漸取代建築勞工！要失業了嗎？

拘留+罰款+失業！隔夜酒駕悔不當初！| 法潤平安文明相伴

眼高手低！大學生不能送外賣嗎？男子失業半年被妻子數落：廢人

女人失業後VS男人失業後，内容過于真實，你看懂了嗎？

今年存儲晶片太猛了！SK海力士、江波龍飛速增長：AI功不可沒

親屬過世，銀行存款怎麼取？5萬元以内無需繼承公證

東契奇豪華座駕曝光！車身+車牌都是77 球迷曬路上偶遇視訊

太慘！皇馬主席觀戰東契奇膝蓋被撞一度離場還遭哈登擊打臉部

多支豪門想換主帥難言滿意：紅軍、米蘭新帥不如故人？滕哈格穩坐釣魚台

趙長鵬妻子何一緻信美國法官：一個更真實的趙長鵬是怎樣的

資料帝：詹姆斯創生涯兩大尴尬紀錄出手19次轟50分！大帝成曆史首人

雷軍也來比亞迪展台“打卡”？多款車型同期首發，看不過來！

休賽期或将重建的5大季後賽豪陣：太陽豪賭失敗，快船破釜沉舟

特斯拉突然宣布：漲價！

喂！警察同志，我的馬跑了……【新聞早播報】

平陰新聞 | 我縣召開“5·8人道公益日”活動動員會；2024平陰玫瑰産業對接洽談會召開