天天看點

Sora會“殺死”剪映嗎?

Sora會“殺死”剪映嗎?

Sora會“殺死”剪映嗎?

Sora的橫空出世,對張一鳴來說,亦喜亦憂。

被OpenAI的ChatGPT震撼過一輪的AI大模型行業,又一次被這家公司推出的首個視訊生成模型Sora震撼了一把。

不同于Runway、Pika等僅能生成不足10秒,且鏡頭視角單一、内容高度失真的視訊,Sora的視訊生成長度不僅突破到了60秒,且能實作單視訊的多角度鏡頭切換,還能最大限度還原現實世界的真實場景。

在ChatGPT上被驗證過的模型性能縮放法則(scaling laws),被OpenAI CEO阿爾特曼移植到視訊領域後,被證明其“大力出奇迹”的政策仍然有效,即增加模型的大小将繼續提高性能。ChatGPT所為人稱贊的“智能湧現”特征,再一次出現在Sora身上。

Sora會“殺死”剪映嗎?

OpenAI CEO阿爾特曼

面對來自Sora的“降維打擊”,AI視訊領域的創業者中,有的如Runway CEO克裡斯托瓦爾·巴倫蘇埃拉一樣,做好了“Game On”的準備,有的如Pika創始人郭文景一樣,開始籌備對标Sora的新産品,也有人如Stability AI CEO埃馬德·莫斯塔克一樣,不由感慨“阿爾特曼真是一個魔術師”,并将Sora視為AI視訊界的GPT-3時刻。

但對位元組跳動來說,這未必是個好消息,因為 Sora所處的視訊生成賽道,正是眼下位元組跳動旗下剪映所瞄準的AI創新方向。2月份從抖音轉崗剪映後,據界面新聞報道,抖音前CEO張楠即将推出一個AI生圖和視訊的産品。

正打算在AI生成視訊領域大幹一番的張楠,還沒等到産品落地的那一刻,其内部再創業的計劃,便率先遭遇了Sora的當頭一擊。

OpenAI是張楠決心押注AI再創業的催化劑。2022年OpenAI旗下文生圖模型DALL-E 2的釋出,讓張楠首次直覺感受到AI圖像生成,給傳統内容創作方式所帶來的颠覆式變革威力,這既是位元組跳動全球CEO梁汝波口中“會産生新的創作平台”的機會,也是促成張楠轉崗剪映的原因之一。

2019年剪映的出現,幫助抖音内容生态從偏向PGC(專業機構生産内容)轉向UGC(使用者生産内容),大大降低使用者創作門檻。如今,随着平台内容生态轉向PUGC融合态,其對使用者創作視訊的成本和整體品質,又提出了新的要求。AI生成視訊産品的出現,則對盡可能拉低每一個普通人創作視訊的門檻,提供了一種現實可能性,抖音乃至TikTok,都有望借此在内容創作者數量上迎來新的爆發。

值得一提的是,AI視訊生成更是一個頗具前景的創業賽道。截至2023年底,該賽道已經湧現出一批獨角獸公司:Midjourney估值100億美元,Stability AI估值40億美元,Runway估值15億美元。年初爆火出圈的新貴Pika,成立時間不足一年,其估值已經達到2.5億美元。

但在Sora的突然襲擊之下,留給張一鳴和張楠孵化下一個AI視訊生成獨角獸的時間,越發緊張了。

A

Sora亮相之前,位元組内部也在研發AI生成視訊産品。

1月份,位元組跳動研究人員在arXiv上發表了一篇論文,其中介紹了位元組正在開發的一款文本生成視訊的模型,被命名為 MagicVideo-V2,其通過內建多個子產品,包括文本到圖像模型、視訊運動生成器、參考圖像嵌入子產品和插值子產品,實作從文字到視訊的自動化生成。

MagicVideo-V2想要解決的問題,是Runway、Pika等在生成視訊中所表現出來的保真度不高、運動不自然、分辨率不高、風格不多樣等。

位元組旗下産品剪映原有的“圖文成片”功能子產品,在進行文生視訊轉換過程中,同樣面臨上述難題的拷問。

在等待MagicVideo-V2完善研發,從demo走向量産上線之際,張楠在過去一個月多的使用者訪談中,收集到了更多來自一線創作者對AI生成視訊産品的不滿和期待,其中之一就包括部分創作者“為了更好表達自己的想法,幾乎無法用一個産品完成所有的創作,要橫跨幾個産品之間,用複雜的編輯和互動流程,才能完成他們的表達。”

去年8月,UP主數字生命卡茲克制作的一條爆款視訊《流浪地球3預告片》,便先後運用了MidJourney和Runway等多款産品,且經曆了長達5天的後期剪輯拼接。

造成UP主數字生命卡茲克創作困難的主要原因,便出在AI軟體不夠智能和便捷上。Sora出現之前,業内文生視訊的預設方式是,隻能輸出單一、且往往是靜止視角的短視訊片段,畫面背景還多呈現賽博朋克風。

Sora出現之後,文生視訊領域的舊識被打破,不管多麼複雜的視角、場景切換,都隻用通過單一提示詞便可生成,在兼顧便捷性的同時,最大限度保證了生成内容與真實實體世界的相關性。

Sora會“殺死”剪映嗎?

Sora提示詞示例 圖源:官網截圖

位元組和張楠規劃中AI視訊所應具備的更高保真度生成效果、更清晰生成畫面、更順暢自然的邏輯了解能力等,率先被Sora一一實作。

需要注意的是,尚未對外開放測試的Sora,眼下還存在諸多不完善之處,按其官方說法,“仍然處于世界模型研究應用的初期階段。”

Meta首席科學家楊立昆便直接質疑Sora:“僅憑能夠根據提示生成逼真的視訊,并不能說明系統真正了解了實體世界。”

OpenAI在官網介紹中也提醒道,Sora可能難以準确模拟複雜場景的實體原理,并且可能無法了解因果關系,還可能混淆提示的空間細節,例如混淆左右,并且可能難以精确描述随着時間推移發生的事件,例如遵循特定的相機軌迹。這些缺陷可能導緻Sora生成一些不合邏輯的視訊,如一個人在跑步機上跑錯方向。

這些尚未解決的Bug,是OpenAI決定暫未全面開放Sora的原因之一。如今,OpenAI正選取部分使用者展開内測,以評估關鍵領域的潛在危害或風險,以期獲得寶貴回報,進而推動模型進步。

B

ChatGPT釋出後,外界開始意識到AGI時代有了實作的可能性,Sora等視訊生成模型,無疑是推動AGI到來的重要加速器。

OpenAI直接在官網上寫道:“Sora為能夠了解和模拟真實世界的模型提供了基礎,我們相信這一能力将是實作AGI的重要裡程碑。”

想要借助視訊生成模型,推動AGI帶來的不止OpenAI一家公司。去年12月,Runway提出要開發通用世界模型(General World Model),用旗下的視訊生成Gen-2來模拟整個世界,“我們相信,人工智能的下一個重大進步将來自了解視覺世界及其動态的系統,這就是為什麼我們要圍繞通用世界模型開始一項新的長期研究工作。”

了解現實世界的實體法則,成為通往AGI的必經之路。360創始人周鴻祎在點評Sora時直言,一旦AI接上攝像頭,把現存所有視訊都看一遍,其對世界的了解能力将遠遠超過文字學習。“這就離AGI真的不遠了,不是10年20年的問題,可能一兩年很快就可以實作。”

Sora會“殺死”剪映嗎?

正是在AGI相關概念刺激之下,AI生圖和視訊領域的垂類大模型公司,估值迎來飙升,出現了Midjourney、Stability AI、Runway等一批明星獨角獸創業公司。

具體到位元組跳動的業務層面,圖檔/視訊生成還能幫助提效位元組的商業化需求,如幫助位元組廣告客戶低成本、便捷地制作視訊。有位元組人士告訴晚點PostLate,位元組廣告客戶投放總成本裡有10%-20%為視訊制作成本,從去年開始,位元組已在開發一些相關産品幫廣告客戶壓縮這部分投入。

盡管在推出類似文生視訊産品方面落後一步,但對張楠來說,反過來也迎來了一個摸着Sora過河的機會。

ChatGPT亮相之前,算法方面的短闆,一度是行業研發對話大模型的主要障礙之一。人工智能專家丁磊博士解釋道,部分大模型創業公司“還不是那麼會訓練大模型……如果訓練方法錯的話,你有再多的GPU也沒用。”

在追趕Sora過程中,Pika創始人郭文景提到,目前生成式視訊發展的一個重要限制是算法的成熟度,“語言對話模型大家已經知道大概的方法,算法相對比較成熟了。但視訊之前還沒有很好的算法。”

Sora的釋出,無疑再次給行業提供了一個行之有效的解題思路,也給郭文景和張楠這樣的同領域創業者,提供了一條成熟的算法借鑒路線。

C

随着Sora正式亮相,在上一波語言對話模型上落後的位元組,在視訊領域再次陷入被動追趕窘态。

2022年11月ChatGPT釋出之後,百度、阿裡等國内大廠相繼在去年三四月份推出自研大模型文心一言和通義千問,但直到8月份,位元組才對外亮相了雲雀大模型。

動作遲緩的後果之一是,當文心一言月活已經破億後,位元組同類産品“豆包”的月活,還不足千萬。

在1月底的新一期All Hands(員工面對面)上,梁汝波着重以AI進展緩慢說明公司正在變得遲鈍的現況,稱 “公司層面的半年度技術回顧,直到2023年才開始考慮GPT,而業内做得比較好的大模型創業公司,都是在2018年至2021年創立的。”

位元組關注大模型并不算晚。據晚點LatePost報道,2020年6月OpenAI釋出GPT-3後,位元組曾訓練了一個數十億參數的生成式語言大模型,由于參數規模有限,該模型生成能力一般,位元組當時看不到它的商業化可能性,“ROI(投資回報率) 算不過來”,這次探索便淺嘗辄止。

如今選派張楠這樣一員大将用AI改造剪映,被外界視為是位元組内部希望提速AI發展的一個信号。

Sora會“殺死”剪映嗎?

張楠

但在完成内部調兵遣将之後,留給張楠的挑戰不隻是追趕時間上的緊迫,還有外部晶片斷供所帶來的算力荒難題。

去年10月份,英偉達旗下A100、A800、H100、H800和L40S等五種GPU晶片禁令正式生效。對于一衆國内大模型廠商而言,英偉達晶片的斷供,在客觀上成為其追趕ChatGPT乃至GPT-4的最大阻力。

在縮放法則(scaling laws)指導下,阿爾特曼提出了晶片需求每三四個月就要翻一番的大模型時代“摩爾定律”。這無疑再次拉高着張楠追趕Sora的門檻。

“對于國内廠商而言,這種大力出奇迹的模式跑通之後,矽谷會進入更為狂熱的算力軍備競賽。位元組們的算力短闆會進一步放大。”招商證券研究員劉枋說道。

參考資料:

《剪映全員信》張楠

《揭秘位元組AI版圖:調集多位高管參戰,數款重磅産品内測》Tech星球

《大廠大模型:久違的一把手工程》晚點LatePost

《“今天,所有VC的會上都在談Sora”》投中網

《Sora釋出後,Pika創始人獨家回應钛媒體:很振奮,我們将直接沖》钛媒體

繼續閱讀