天天看點

OpenAI再次舉起屠刀,以及幾個推論

OpenAI再次舉起屠刀,以及幾個推論

OpenAI再次舉起屠刀,以及幾個推論

出品 | 虎嗅科技組

作者 | 王一鵬

頭圖 | OpenAI 官網,by Sora

2月16日淩晨,在沒有任何預兆和消息透露的情況下,OpenAI 突然釋出了自己的首個文生視訊模型:Sora,大幅重新整理行業多個名額,重新定義了 AI 文生視訊在現階段的技術極限,颠覆了生成式 AI 在視訊領域的全球市場格局。

Sora 使用 Transformer 架構,建立在 DALL·E 3 和 GPT 模型之上,可以生成長達一分鐘的有運動、多機位視訊。相比業界水準,Sora 将視訊生成的時長一次性提升了 15 倍,直接邁過了市面上所有短視訊的時長要求。

同時,Sora 也帶有世界模型的特質。世界模型不是 AI 視訊生成的必須要素,卻是這個領域較為高端的一個研究方向。所謂世界模型,簡單點說,是要對真實的實體世界進行模組化,讓機器像人類一樣,對世界有一個全面而準确的認知。視訊與文字不同,大多數是在描繪一個主體,在一個真實或虛構的實體世界中的動作,是以,世界模型會讓 AI 視訊生成更流暢、更符合邏輯,降低視訊模型的訓練成本,提升訓練效率。同時,世界模型也為生成式 AI 真正進入自動駕駛行業鋪好了路。

此次,Sora 的世界模型,已經能幫助它還原一輛越野車在山區小路上的行駛情況,在視訊中添加逼近真實的傾斜和颠簸感。

OpenAI再次舉起屠刀,以及幾個推論

圖檔來自 OpenAI 官網,為 Sora 生成的視訊,部分截取

但 Sora 的世界模型仍有非常多的問題,比如,一塊餅幹被咬過之後,卻沒有留下咬痕。OpenAI 非常實在,把這些問題都寫在了官網上。

目前,Sora 僅開放給了少部分人進行内測,據稱是一些視覺藝術家、設計師和電影制作人。同時,OpenAI 内部仍在進行模型倫理側的對抗性測試,比如錯誤資訊、仇恨内容、偏見内容,至于色情暴力,則會在文本輸入時,就被拒絕掉。

對于 Sora,今天的我們,必須注意到幾個顯而易見的推論:

  • 1

    OpenAI 一拳打在了所有人的肝上:全球的 AI 視訊生成賽道投資邏輯,乃至相關企業的生存邏輯,在此刻都已經改變了。未來一個季度内,如果該企業的視訊生成能力,仍然停留在 4s,或導緻直接出局;

  • 2

    AI 已經快速邁過文生文、Chatbot時期,大步進軍視訊生成領域:當下最火的短視訊、短劇,将迎接 AI 的到來;那些卡在瓶頸上的領域,比如自動駕駛、智慧城市,或将迎來突破。

  • 3

    不要過度神話 Sora 或其他 AI 視訊生成工具,當下仍有巨量的技術、産品、商業問題等待解決;但也不要低估 AI 技術的進步速度,那個凝固在未來時光中、讓人看不清面貌的 AGI(通用人工智能),正在向我們邁步。

OpenAI再次舉起屠刀,以及幾個推論

圖檔來自 OpenAI 官網,為 Sora 生成的視訊,部分截取

Sora 到底牛在哪?

就在年前,2024年 1 月 27 日,虎嗅舉辦了一場關于 AI 視訊生成的開放沙龍,會上有一個有趣的互動:AI 視訊生成多快迎來 Midjourney 時刻?

選項分别是半年内、一年内、1-2年或更長。

在現場,每個選項都各有擁趸,但 OpenAI 今日公布了準确答案:20 天。

AI 視訊生成真正的難點是在文生視訊,而非圖生視訊、視訊生視訊。各中奧妙在于,文生視訊,需要根據指令,從文字解碼出視訊的時空邏輯,同時保證在這一邏輯下,畫面中所有物體的運動、變化,符合要求,符合現實世界規律。而圖生視訊、視訊生視訊,皆有“照貓畫虎”的意味,是以反倒要簡單一些。這也是為什麼,市面上的 AI 視訊生成,始終停留在 2-4s 的時長範圍内——一旦超過了這個時長,視訊的可控性和品質都将大大下降。

很多視訊生成,更像是個固定人物配上動态背景,畫面很單調,幾乎沒什麼動作,這也是因為從文字到視訊,在時空邏輯推理層面的局限。同時,很多企業更關注所謂 AI 視訊生成的産品化、商業化,聚焦于推出一些基于模闆,快速用于營銷的視訊生成工具,在世界模型層面有所欠缺,一旦視訊時長增加,模型不能了解真實的實體運動和互相作用邏輯,變得十分無力。

OpenAI 的 Sora ,就是在文生視訊,增加視訊時長,建立世界模型,這幾大最主要的難點上,走出了突破性的一步。但這并不代表 Sora 沒有問題,可以以假亂真,當下最違和的問題在于憑空生成:三隻小狗在嬉鬧,憑空出現了第四隻小狗、第五隻小狗;一個人撿起一大塊塑膠片,憑空出現一把塑膠椅子。

另外一類主要問題,在于 Sora 的世界模型仍然不夠完善。比如一個男人倒着跑跑步機,且跑步動作并不連貫自然。或者一個籃球撞在籃筐上,發出符合實體規律的彈跳,然而下一秒就撞破了籃網,發生爆炸。一群考古學家,在沙漠裡挖出一個塑膠椅子,煞有介事的清理灰塵,而椅子本身則在詭異的漂浮和變形。

OpenAI再次舉起屠刀,以及幾個推論

男人倒着跑跑步機,圖檔來自 OpenAI 官網,為 Sora 生成的視訊,部分截取

世界模型一直處于一個相當狹窄的研究領域,這概念研究難度大,目标太高,帶有相當的學術色彩,是以一度參與者寥寥。

值得一提的是,Meta 首席人工智能科學家、圖靈獎得主楊立昆(Yann LeCun)本人,盡管在 Meta 的生成式 AI 落後問題上,正承受着巨大的壓力,但其卻是世界模型構想的主要提出者。

楊立昆一向對生成式 AI 的幻覺和一系列反智行為嗤之以鼻,并認為 AI 隻有真正了解實體世界,才具備真正的價值,斷言 GPT 模型活不過五年。他在 2023 年 6 月基于自己的構想,推出了 I-JEPA 模型,用真實世界的背景知識,補充圖像缺失的片段,但這仍然是個技術研究層面的概念。

2023 年 12 月,AI 視訊生成的領頭羊之一 Runway,官宣下場通用世界模型,高調釋出系列招聘,宣稱要用生成式 AI 來模拟整個世界,以應對 Pika 的步步緊逼。

這是一個信号,或許在楊立昆看來,局面一度在向着好的方向發展:自己的研究方向得到認同,拖累 Meta 的謠言不攻自破。

可這快樂還沒持續三個月,啪,沒了。

Sora 革了誰的命?

Sora 釋出前,有很多煙霧彈式的訊息更新,比如:OpenAI 組建研究兒童安全的新團隊、OpenAI 正準備推出 GPT-4.5-turbo,但真正的“殺手級更新”被隐藏的很好,這也導緻像 Pika、Runway 一樣的明星創業公司,措手不及。何況 OpenAI 的聯合創始人 Andrej Karpathy 本來就是 Pika 的資方之一。

源碼資本副總裁李露霖在虎嗅主辦的沙龍上表示,短視訊是目前硬體基礎設施Mass Market滲透率最高的形态。

有資料透露,目前國内短視訊使用者的規模在10億以上,有資料稱抖音2022年年收入700億美金以上,快手也在900億人民币以上。不過面對這樣一個市場,在 Sora 釋出前,所有的視訊生成工具,均沒有達到可付諸商業或工業化生産的水準。

有專家對虎嗅表示,大廠目前對于AI視訊生成的态度相當模棱兩可。根本問題在于,現在的人工視訊生成效果更好,且成本也能接受,AI 視訊生成,在此前沒有大家想象的那麼颠覆,是以整體政策偏向“防禦”,而非“進攻”。

這一切,既麻痹了像 Pika、Runway 一樣的創業公司,讓他們以為機會已至、前景夠好;也讓這些公司及其投資人,低估了視訊生成賽道的競争烈度,以為視窗期仍然足夠長。

所有的 AI 視訊生成公司,在這種麻痹裡,都陷入了同質化競争:過多關注更高畫質、更高成功率、更低成本,而非更大時長以及世界模型。

Pika、Runway、Meta,大體都是如此,在時長不超過 4s 的範圍内,可以做到畫質極度精美,但物體本身的運動幅度極低,且會變形。

國内的位元組跳動,反倒是其中的另類。在視訊領域,位元組的嗅覺更加敏銳。2023 年 11 月,位元組跳動釋出 PixelDance,通過上一個視訊片段尾幀,為下一個視訊片段頭幀提供指導的思路,在視訊時長上有所突破,但截止到發稿時間,仍然沒有開放使用者測試。

OpenAI再次舉起屠刀,以及幾個推論

PixelDance 官網視訊案例

接下來在資本市場的影響,很可能是隐性的。Pika 創始團隊曾被打上“學霸”、“完美”等标簽,并在 2023 年 11 月底完成 5500 萬美元融資,可下一輪的資本将在怎樣的時間點,以什麼樣的數額進入?Runway 2023 年 5 月完成 1.41 億美元融資,但主攻世界模型的團隊還在組建中,下一步融資的節奏也存疑。

如果說 Pika、Runway 身上還有布局價值,那麼對于國内 AI 出海的企業而言,形式将變得更加艱難。換句話說,從移動時代遷移至今的、基于場景和産品能力,快速上線一個插件的商業模式,正在海外 AI 市場失效——

因為像 OpenAI 這樣的企業,正屹立在市場上。他們幾乎重制了當年 Oracle 市場上司力,一步快,步步快,降維打擊所有競争者。對于所有做模式、趕風口的機會主義創始人而言,巨頭若要殺死你,恐怕也隻會發生在一夜之間。