馬斯克說人類願賭服輸!OpenAI首個文生視訊模型炸街,哪些行業又将颠覆
Sora生成視訊展示 澎湃新聞編輯 秦盛(03:23)
人工智能(AI)巨頭OpenAI在龍年伊始就扔出了殺手锏。
當地時間2月15日,OpenAI宣布,正在研發“文生視訊”模型Sora,可以建立長達60秒的視訊,其中包含高度詳細的場景、複雜的錄影機運動以及充滿活力的情感的多個角色,也可以根據靜态圖像制作動畫。
根據OpenAI官網,Sora能夠生成具有多個角色、特定類型的運動以及主體和背景的準确細節的複雜場景。Sora不僅了解使用者在提示中提出的要求,還了解這些東西在實體世界中的存在方式。
盡管OpenAI也展示了多個目前Sora的缺陷,但是已公布且未經修改的“原生AI視訊”足以震撼全場。
OpenAI 視訊截圖
外媒援引人智能專家和分析師的話稱,Sora視訊的長度和品質超出了迄今為止所見的水準,部分視訊已經難辨真假。2022年11月推出的ChatGPT引領了全球大模型的蓬勃發展,并開始在特定行業展現生産力,今年推出的Sora是否能承接ChatGPT的衣缽?
暴走遊戲CEO張均在接受澎湃新聞記者采訪時表示,雖然輿論對這款産品很沸騰,但相關從業者依然要用開放心态學習,同時冷靜觀望,“從技術來看,之前Runway、Pika、Google和Meta都推出過文生視訊工具,Sora的優勢主要是三方面,首先是可以生成長達60秒鐘的超長視訊,包括多個角色、特定類型動作和主題背景;第二,可以在單個生成的視訊中建立多個鏡頭,模拟複雜的錄影機運鏡,同時準确地保持角色和視覺風格。第三,能夠了解物體在現實世界中的實體規律和存在方式,不會做出畫面精美但到處穿幫的内容。”
張均表示,Open AI在此前推出的ChatGPT主要還是應用于沒有藝術性和不确定的場景,現在很多公司在使用ChatGPT做文本優化,非常節省時間,“用A工具把視訊連結直接變成文本,再用GPT秒改,再排查相關詞組後,隻需要幾分鐘完成。”
瀾碼科技CEO周健則告訴澎湃新聞記者,和其他視訊模型相比,最大的差別是Sora是用所謂的文本編碼去生成實體世界的模型,大家覺得驚豔也是認為它生成的内容看上去和真的一樣。Open AI認為,通過壓縮可以對這個世界進行模組化,然後能對這個世界進行預測,這是Open AI一直以來的信仰。如果是3、4秒的視訊可能能躲避一些bug,60秒的時長對視訊裡的世界一緻性要求更高,否則大家一下子就能看出差別。
如果說ChatGPT重塑了文本相關行業,那視訊模型Sora是否會改寫視訊行業,甚至是電影産業?
周健表示,生産力會大大提升,就如之前的文生圖,對遊戲、廣告行業起到的作用是不再靠初級的繪圖師通過畫來表達創意。但Sora對複雜的互動還是有問題,比如,敲碎一個杯子它就做不到,因為杯子可能通過一定的實體規律進行拆碎,很多碎片彈出來,每一片碎片其實都得遵循實體規律。
韬蘊資本合夥人常惠芳告訴澎湃新聞記者,Sora對小屏短視訊制作可能産生一定影響,小屏圖像視訊需要處理的資料量不大,網速和普通電腦硬體配置能達到要求的情況下,如果AI有成本優勢,某些場景可以替代人工拍攝。在大銀幕方面,受制于算力等基礎設施的限制,還做不到替代。從投資角度來看,外界會對AI視訊類的産品更為關注,例如此前推出的Runway、Pika、Google和Meta等産品。
張均認為,從行業影響來看,對基礎性的畫師人才需求會有很大影響,但涉及到藝術和創意類,實際上AI的作用還是非常有限的,Sora可能隻能應用于非常有限的重複性制作場景。
周健也持有類似觀點,“不管是《熱辣滾燙》還是《流浪地球》,電影裡有價值觀,有一緻性,你現在把劇本拆成1000段prompt,對生成視訊‘不一緻’的地方,你再靠人去修整,這是很難的事情。但是我也相信,虛拟和現實肯定會融合在一起,肯定會有很多創意出現。”周健認為,對遊戲行業會有一些影響,原本的遊戲視訊要花很大的力氣,現在用這個工具變得簡單。
電影導演和視覺特效專家Michael Gracey在接受外媒采訪時表示,以後或許不再需要一個由100名-200名藝術家組成的團隊來用3年時間完成動畫長片,像Sora這樣的人工智能工具将使電影制作者能夠仔細控制他們的輸出,從頭開始制作各種視訊。
不過,也有影視後期從業者告訴澎湃新聞記者,AI生成視訊技術要真正應用到影視行業制作,要求還是很高,例如要做到能對細節之處随時調整,并且生成的視訊具有一定穩定性,不能有變化,目前Sora都不能做到。但該人士也指出,從成本來看,目前專業3D的後期處理,3分鐘的視訊總價格約為30萬元,初步估算一分鐘價格約10萬元,其中主要是人力成本,需要3人團隊投入一個月時間才能制作完成。如果未來Sora真的能投入影視行業商業應用的話,确實有廣泛的空間,但現在還有一定差距。
就如此前ChatGPT問世時,曾有擔心是否會取代部分人類工作,尤其是非創意類的崗位。
一名不願具名的網際網路傳媒首席分析師告訴澎湃新聞記者,OpenAI此次推出的Sora是OpenAI多模态能力在應用層面的又一個新高度,也是AI領域新的裡程碑。從功能來看,能夠用文字生成長達60秒的視訊,意味着Sora可以極大程度地降低創意視訊的制作門檻,解放生産力,實作“1分鐘視訊自由”。但同時,也會更加凸顯創意和IP的價值,因為AI智能做到輔助生成,但具體的創意還是需要人類來設計和策劃,“随着AI時代到來,工具會變得很普及,如果大家都使用工具,那麼如何展現自己的競争力?最後還是會回到創意能力上。”
還有行業人士認為,國内文本模型的進步速度已經很快,但算力會把差距放大。當然,國内企業的強項是資料,和國外科技企業相比,國内在應用端有優勢。
中國社會科學院法學研究所副研究員唐林垚告訴澎湃新聞記者,從公布的視訊來看,相較于其他視訊類生成式AI,Sora在畫面清晰度、内容流暢度、表意深度和精彩程度方面均有大幅提升:“如果Sora的能力真如官方公布一樣強大,且之後可以像ChatGPT一樣便捷通路,那麼Sora将給廣告行業、影視行業和特效行業帶來極大的沖擊。”
從法律監管角度,唐林垚表示,AI生成視訊帶來的監管挑戰包括但不限于如何有效區分真實和虛假内容,以及如何確定人工智能作品不被用于誤導公衆或其他非法目的;更進一步的法治挑戰在于,如何平衡強監管與行業發展之間的張力。而在法律之外,網民和閱聽人的“反欺詐意識”和“防範意識”也亟待提高:“不同于早期深度僞造視訊粗糙且拙劣,今天的Sora樣片可謂歎為觀止,這無疑表明,在技術主導且疊代迅猛的當今網際網路生态下,‘眼見為實’已經是過去時。”
有意思的是,就在Sora釋出後數小時,特斯拉CEO馬斯克就在X平台上接連回複多條文章“輸出”觀點。有網友在評論Sora生成的60秒時尚女子在東京街頭散步時稱,“gg Pixar(皮克斯動畫制作公司)”(編注:gg為Good Games縮寫,代指“打得好,我認輸” ),随後馬斯克回複,“gg humans(人類)”。之後馬斯克還稱,通過AI增強的人類将在未來幾年創造出最好的作品。