天天看點

智譜AI CEO張鵬:AI生成視訊無法徹底替代影視行業,真正進入電影尚需時日|钛媒體AGI

智譜AI CEO張鵬:AI生成視訊無法徹底替代影視行業,真正進入電影尚需時日|钛媒體AGI

智譜AI CEO張鵬(來源:钛媒體App編輯拍攝)

7月26日上午,國内AI大模型獨角獸智譜AI在北京釋出 AI 視訊生成技術“清影(Ying)”,支援文生視訊、圖生視訊。并且,清影此次面向所有使用者全量上線在旗下“智譜清言”App,無需預約,人人可用。

據悉,清影基于智譜自研的視訊生成大模型CogVideoX,通過技術優化,智譜生成式視訊模型的推理速度提升了 6 倍,将6秒視訊的生成時間縮短到了理論上的30秒。

同時,視訊參數方面,清影目前支援生成6秒時長的 AI 視訊,分辨率為1440x960。而技術層面,清影并非完全沿用因Sora而成為了某種“共識”的DiT架構,而是“智譜自研的一個将文本、時間、空間三個次元全部融合起來的Transformer架構”。

另外,針對内容連貫性問題,智譜AI自主研發了一套高效的三維變分自編碼器結構(3D VAE),能夠将原始視訊資料壓縮至原始大小的2%,顯著降低了視訊擴散生成模型的訓練成本和難度。而在可控性方面,智譜AI打造了一款端到端的視訊了解模型,該模型能夠為大量視訊資料生成精确且内容相關的描述。這一創新增強了模型對文本的了解和對指令的遵循能力,確定生成的視訊更加符合使用者的輸入需求,

目前,CogVideoX 模型目前已在智譜清言的PC端、移動應用端以及小程式端以“清影”功能上線,不僅支援快速生成、高效的指令遵循能力,以及更強的内容連貫性、畫面排程靈活性。

具體來說,清言提供文生視訊和圖生視訊兩種模式:

  • 文生視訊适合用于腦洞大開的場景:小狗在指尖跳舞,海豚飛向深空,宇宙為你閃爍,不論是多麼複雜抽象的畫面,隻要用一兩句話描述想象中的場景,清言都能用精美的畫面為你一一呈現。
  • 圖生視訊可以發掘原有圖檔的更多趣味:輸入圖檔和簡單的描述,即可讓圖檔動起來。你可以讓舊照片裡的人動起來,讓回憶更加動感真切;也讓名畫、劇照裡的角色做些腦洞大開的事情。

付費模式層面,首發測試期間,所有使用者均可免費使用。而加速時間的話,付費5元,解鎖一天(24小時)的高速通道權益;付費199元,解鎖一年的付費高速通道權益。

智譜AI CEO張鵬:AI生成視訊無法徹底替代影視行業,真正進入電影尚需時日|钛媒體AGI

智譜AI CEO張鵬在會上表示,AI 多模态技術來源于人類大腦的工作方式。作為一個複雜的系統認知功能,人類大腦是通過各腦區互相配合完成的,包括文字、視覺、聽覺等,是以,多模态的感覺和了解與人類認知能力的發展有非常密切的關系,作為一家目标是AGI的人工智能公司,智譜一直以來都非常重視多模态技術。

“AI行業對多模态模型的探索還處于初級階段,我們還會繼續努力,為大家提供更好的模型,更好的産品。”張鵬表示。

會後,張鵬與钛媒體AGI等進行接近一小時的交流,探讨了 AI 視訊應用的商業化、落地場景以及是否會取代影視行業、大模型市場競争等諸多話題。

智譜AI CEO張鵬:AI生成視訊無法徹底替代影視行業,真正進入電影尚需時日|钛媒體AGI

清言生成的 AI 視訊(圖檔來源:智譜AI介紹視訊)

張鵬坦言,現有的 AI 視訊生成技術無法徹底替代影視行業,更多是輔助的作用,但 AI 對于影視行業的變化是有積極意義的。目前來講,把AI直接用在面向觀衆的影視生産過程當中可能還是不太夠,最多是做小規模的創作。“如果 AI 真正要達到改變電影的制作等更高要求的任務,可能還得要有一段路去走。”

張鵬認為,目前 AI 視訊主要是做線上電商營銷、短視訊自媒體需求等。“但是,我相信肯定不僅止于這些客戶。目前是一個階段性的東西,下一步往哪個方向發展,哪些事情會成為技術突破、落地應用最關鍵的問題,需要我們不斷形成從上到下、至下而上這樣一個閉環。”

談到 AI 視訊生成的商業化,張鵬表示,目前智譜清影的商業化還處于早期,更多是通過API進行付費。

“清影功能上線,就像剛才開場時候給大家介紹一樣,主要是階段性成果,要說它多麼完美還不是,還需要階段性解決,給大家彙報一下我們的進展,讓大家體驗一下目前視訊生成這樣的事情在每人可用的前提下能做到什麼程度,而不是關在實驗室裡或者在很小的機率上生成出什麼東西。從現在這個階段來說,無論是2C還是2B,純粹走向大規模商業化還比較早期。”張鵬稱。

張鵬表示,目前視訊生成的算力、算法成本都很高。“的确,做大模型這件事太燒錢了,而且确實也面臨市場上的需求,你要商業化落地,是以,我們是分層次去做,最基礎的技術突破創新是我們消耗資源、算力方面最大的一部分,商業化層面是在這個基礎之上推進的。”

張鵬強調,“我相信,所有的友商把這個東西不開放出來,很大程度也是因為成本的問題,頂不頂得住很多人來用,這也是一個選擇。”

是以,張鵬指出,如果想要做好 AI 生視訊的商業化,可控是必要條件,需要花大力氣去做,進而精準表達好創作者的意圖。“如果它能夠非常好的了解簡單文字背後深層次的意圖和語義,就能做到很好的可控。”

談到與Sora的差距,張鵬承認,清影還是一個初步的階段性成果,目前還達不到像Sora示範的長視訊效果,需要做更多的努力。

“我們從來很坦誠,承認我們和OpenAI、世界頂級水準之間的差距。但是,走的這條路還得自己走,我們一直也在走自己的路。很多時候,我們是在不斷用自己的方式往前追趕,比如。怎麼把視訊生成算力成本降下來、響應速度提升上去、讓所有人可以用,是以,我們是在追求技術高度的同時,也同步追求技術的可普及性和成本,這也是我們團隊的一些特點。”張鵬表示。

談及與生态公司的競合關系,張鵬坦言,商業化過程當中,服務客戶過程中是智譜技術和産品核心能力驅動的,客戶需求、回報是技術往前創新突破和邁進的驅動力,讓兩者形成比較好的閉環。無論是做2C産品,還是服務B端企業,都是同樣的思路。有些事情可能并不會在我們聚焦的方向,這個可能會交給生态裡的合作夥伴或其他方面做,有些幫助我們完成閉環的,是我們自主做,(我們商業化)是這樣的方式。

展望下一步的超級App發展,張鵬向钛媒體AGI強調,智譜持續把清言定位為“AI 助手”,幫你解決工作、學習、生活當中的實際問題,幫你做生産力效率提升、工作便利提升等方面的事情。

“我們認為,所謂的超級APP可能它不一定是‘超級’,我們也是循序漸進、在潛移默化過程當中讓大家真的習慣上使用這個工具,這也是一個很好的事情。是以,這可能并不一定是階躍式改變,而是潛移默化不斷變化。我們很期待,在這樣的 AI 時代通過效率(清言)工具,讓大家在不知不覺中改變自己的生活狀态,這也是我們倡導的人機協同的發展方向。”張鵬表示。

(本文首發于钛媒體App,作者|林志佳,編輯|胡潤峰)

繼續閱讀