天天看點

對話萬興科技朱偉:Sora的成功是“大力出奇迹”,大模型不會直接出海 | 钛媒體獨家

作者:钛媒體APP

過去的2023年,大模型成為科技界的高頻詞彙,也成為被各行各業提及最多的東西。據不完全統計,2023年國内公開釋出的大模型産品已超過238個。

不過,技術的演進與爆發也需要一定的過程,翻看過往釋出的大模型産品,它們之中的多數都是以自然語言對話為主要功能,提供聊天對話、創意寫作、代碼生成等服務。對比之下,在需求更為旺盛的視訊領域,大模型的成熟度尚有較大的缺失。

借助大模型的能力,文生文、文生圖已經在一定程度上提升了工作學習等場景的效率。但是,視訊作為人類資訊互動資訊密度最高的一種方式,文生視訊是全行業更為迫切想要追求的,這也是為何Sora在年初能夠引發如此大影響的原因之一。

對話萬興科技朱偉:Sora的成功是“大力出奇迹”,大模型不會直接出海 | 钛媒體獨家

萬興科技副總裁朱偉,圖檔來源:萬興科技

“目前大模型在文本和圖像領域已實作生産力商用,但在音視訊領域的應用還存在資料集缺失、視訊内容結構及層級複雜、算力成本高等挑戰,其成熟應用尚需周期。”萬興科技副總裁朱偉對钛媒體App說道。

從2003年成立至今,萬興科技一直都在圍繞視訊做研發與投入,并且從去年開始加速大模型的研發。今年1月,萬興“天幕”音視訊多媒體大模型正式對外釋出。

日前,钛媒體App獨家透露了萬興“天幕”将于4月28日正式公測,文生視訊能力一鍵生成時長支援60秒+。在與朱偉的簡短交流中,他也是不止一次的強調稱,2024年将迎來AI視訊年。

Sora的成功是因為“大力出奇迹”

據Gartner研究預測,到2030年,90%的數字内容都将是AI生成,預計2032年,全球AIGC市場規模将由2022年的108億美元增加至1181億美元。同時,思科公司此前釋出的報告内容指出,未來82%的消費網際網路流量是視訊流量。

如果從文本的角度來看,大模型的發展的确已經很成熟,但是從視訊的角度來看是遠遠不夠的。目前,全世界有3.05億視訊創作者,43億視訊覆寫群體,每天200億次以上的視訊播放量,視訊需求非常大。“視訊為王”時代的到來,也催生出對多媒體垂直大模型和應用的需求。

根據矽谷知名風投公司a16z調研結果顯示,在2023年以前,市面上尚不存在公開的視訊模型,但2023一年内誕生的模型就達數十個,全球使用者數量超過百萬級。目前,市場上已投入使用并取得一定進展的AI視訊模型數量達到21個。

朱偉透露,不管是文本模型、圖像模型還是視訊模型,國内真正的原創大模型其實還不算多,甚至可以說很少。“特别是視訊大模型,包括我們在做的萬興’天幕’,也還沒有到L0最基礎的模型級别。”

對話萬興科技朱偉:Sora的成功是“大力出奇迹”,大模型不會直接出海 | 钛媒體獨家

可以肯定的一點是,今年視訊類應用有望迎來爆發式增長,也就是說,AI視訊大模型的落地應用會越來越多、越來越快。年初,Sora的出現,讓整個行業為之一振,朱偉也坦言,從模型基礎的級别來講,國内與Sora的差距還比較大,需要投入更多的資源,去快速進行技術疊代。“Sora作為行業标杆,是我們正在努力看齊的目标。”

對于視訊大模型而言,算法、算力與資料是三大難點。其中,由于開源的原因,算法架構現在大家都差不多。“我們研究過Sora,它整個技術架構并沒有什麼颠覆性的創新,就是Transformer架構”,朱偉指出,“為何會有那麼好的效果,主要還是在算力與資料上大力出奇迹。”

他表示,Sora至少有500萬小時的視訊資料做訓練,它要實作月或者是季的疊代,至少是萬卡叢集以上的叢集才能做訓練,國内目前到千卡叢集的公司都不多,我們現在都是靠近千卡,還沒有超過千卡。據了解,萬興科技去年年底到今年,光在算力的投入上就将近一個億。

不過,在承認與Sora之間的差距外,朱偉也并沒有表現出過多的焦慮。“它是做基礎模型的,萬興其實是以應用為主的,我們不會在基礎模型上面去追趕它,因為很費錢也很費力,最後效果也不會一下就會讓你獲得那麼大回報,投入産出比不劃算,簡單來講就這麼回事。”

大模型不會直接出海,中國還不是一個很好的付費市場

就像前文所提及的那樣,生成視訊類的大模型,可以分成兩類或者分成兩個層級:第一個層級是做基礎模型,比如Sora這種。第二個層級是做垂類模型,它是通過一些基礎資料的訓練以後,在這個基礎上,再做一些微調精調的訓練。

對于垂類模型,朱偉認為,如果想要從大模型時代脫穎而出的話,還是要堅持“應用為王”——通過一個爆款應用,快速實作爆發式增長。

需要指出的一點是,目前海内外的技術都不算十分成熟,視訊模型其實還沒有到完全成熟的階段。即便是Sora生成的視訊已經很驚豔,但是距離使用者最終輸出的,可以在社交平台釋出的視訊還有差距。因為使用者視訊是帶有一定的故事,甚至帶有如片頭片尾、文字、轉場等,這種視訊的元素會比Sora生成的要多很多。

總的來看,視訊生成目前存在三大挑戰。第一是資料集欠缺,視訊内容存儲和标注成本高昂,視訊相關的訓練資料集目前仍較欠缺。第二是算力成本高昂,視訊訓練所需的算力遠高于圖檔、文字等其它内容。第三則是生成效果不佳目前仍缺乏效果可用性較好的模型作為标杆。

“我們希望萬興的每一款産品,都是‘技術+應用’的結合,能夠解決某個細分領域的具體問題,讓産品使用者真正獲得價值。要把所有多模态的元素去很好地融合,最後讓使用者在剪輯視訊的時候出來的是一個高品質的多媒體視訊,這個是萬興想要做到的。”

對話萬興科技朱偉:Sora的成功是“大力出奇迹”,大模型不會直接出海 | 钛媒體獨家

萬興“天幕”文生視訊《男孩的探險之行》畫面截圖

通過應用的方式,将大模型能力觸達到更多的市場和使用者,是朱偉在反複提及的事情。根據此前公開的業績顯示,2023年上半年萬興科技海外收入占比為90.23%,目前銷售客戶遍及全球200多個國家和地區。在談及大模型出海的相關話題時,朱偉認為,沒有企業會真正把一個大模型直接出海,估計我們大機率也不會做這件事。

在他看來,大模型出海是指擁有大模型能力的産品出海,去解決海外使用者的問題,而不是做了一個好的視訊模型,最後這個模型直接出海。

至于國内的應用市場,朱偉也談到了目前發展上的一些難題,比如在C端的推廣上。“中國市場是規模最大的應用市場,這個觀點我認同,但它目前還不是一個很好的付費市場。在國内,我們今年開始借助大模型的能力開始做B端,而沒有去做C端,就是因為我們覺得将大模型作為工具直接面向使用者收費的這樣的一種模式,目前在國内比較難走通。”(本文首發于钛媒體APP,作者|杜志強,編輯|鐘毅)

繼續閱讀