天天看點

國産AI訓練,為什麼要用外國視訊?

作者:酷玩實驗室Coollabs

生成式AI的這股浪潮翻湧到現在,已經一年多了。

如果要論在這股浪潮中,哪一類模型是AI領域“王冠上的寶石”,那一定是文生視訊模型莫屬。

從技術層面來說,Sora、Vidu這列視訊大模型,最核心的價值,在于它們實作了跨媒介的資訊合成與創造,進而形成了文本、圖像、與視訊等不同模态的“大一統”。

而這樣的“大一統”,或許正是人類通向AGI的關鍵。

國産AI訓練,為什麼要用外國視訊?

在這個“大一統”的架構下,資料不再被單一模态所限,而是作為多元度資訊的綜合體被了解和運用。

正如圖靈獎得主,AI三巨頭之一的Yann LeCun所提出的“世界模型”理論所述,現如今的 LLM (大模型)都隻是在文本上訓練的,是以隻能非常粗淺地了解世界。

即使 LLM 憑借大量參數和海量訓練資料,能展現出過人的文本了解能力,但它們本質上捕獲的依然隻是文本的統計規律,并不真正了解文本在現實世界中所代表的含義。

國産AI訓練,為什麼要用外國視訊?

AI三巨頭之一 Yann LeCun

而如果模型能使用更多感官信号(比如視覺)學習世界的運作模式,那麼就能更加深刻地了解現實。進而感覺那些無法僅憑文字傳達的規律、現象。

從這個角度來說,誰能率先通過多模态的世界模型,讓AI掌握現實實體的規律,誰或許就能率先突破文本和語義的限制,在通往AGI的路上先登上一個大台階。

這也是為什麼,OpenAI目前如此傾注于Sora的原因。

雖然前段時間,Vidu的出現給國産視訊技術長臉了,在Sora這樣的行業霸主面前挺直了腰闆,但大家夥兒在歡欣鼓舞的同時,細心一看Vidu的示範視訊,發現個挺有意思的事兒:裡面老外的臉蛋特别多。

國産AI訓練,為什麼要用外國視訊?

這一下子,可讓大家夥兒琢磨開了,感覺像是無意中扯出了咱們在收集視訊資料這塊兒的一個小辮子——高品質資料不足。

資料之困

如果說,現階段真有制約視訊生成模型發展的硬門檻,那麼這樣的門檻,無非就是算力、算法與資料。

而其中的前兩者,實際上隻要有錢,有人才,實際上都能搞得定,唯獨資料,一旦落下了,後面想追平,可就得費老大勁兒了。就像身高一樣,拉開了就很難追趕。

講真,雖然從絕對總量來看,中文網際網路上視訊内容也不少了,但其中真正可用于AI訓練的高品質資料,卻并不如外網豐富。

國産AI訓練,為什麼要用外國視訊?

例如,在視訊目标檢測方面,YouTube視訊資料集VIS包含2,904個視訊序列,共超過25萬個标注目标執行個體。國内視訊目标檢測資料集,如華為的OTB-88,僅包含88個視訊序列。

而在行為識别資料集方面,由國際上同樣知名的HACS資料集,包含了140萬個視訊片段,涵蓋200個人類日常行為類别。相較之下,國内阿裡雲的天池行為識别資料集,雖然也是涵蓋200個行為類别,但僅僅包含了20萬個視訊片段。

國産AI訓練,為什麼要用外國視訊?

造成這一差距的原因,從視訊生态上來說,主要是因為國内的很多主流視訊網站,例如愛優騰,釋出的大都是一些影視劇、綜藝、娛樂等内容。

而流量最大的抖音、快手這些短視訊平台,也都是滿屏的搞笑段子、生活小竅門,本來時長就很短了,其中還不乏很多剪輯、搬運、抄襲的作品。

這麼一來,AI想找點“正經飯”吃,還真不容易。

國産AI訓練,為什麼要用外國視訊?

對于視訊AI訓練來說,這樣的視訊,要麼過于集中于特定類型,缺乏日常生活等多樣化的場景,要麼時長太短,缺乏深度和連貫的叙事,這不利于AI學習到長序列的連貫性、故事邏輯和因果關系。

與之相比,專業團隊制作的電影、紀錄片等内容,往往才是視訊AI所需的高品質資料。

國産AI訓練,為什麼要用外國視訊?

因為這些題材不僅種類豐富,時長夠長,并且十分重細節呈現,更有利于AI模型捕捉到光線變化、物體材質方面的差別,進而提升其生成的精準度。

視訊資料這塊兒地兒,咱們不光是缺高品質的内容,還有個頭疼的事兒——資料标注,這可是塊難啃的骨頭。就算視訊拍得品質再高,但你直接甩給AI,它也不能厘清其中的物品。

是以收集好視訊資料後,得有人耐着性子,一幀一幀地告訴AI:“瞧見沒,這條線動的是車流,那個兩腳走路的是行人。”

國産AI訓練,為什麼要用外國視訊?

要搞定資料标注這個既費勁又海量的活兒,沒點厲害的家夥事兒可不成。例如,為提升标注效率,國外就湧現出了一批互動式視訊标注工具,如CVAT, iMerit等。這些工具內建了自動跟蹤、插值等算法,能夠大幅減少人工标注的工作量。

反觀咱們國内,由于自動化标注工具不那麼普及,多半還是靠人海戰術,大批的标注小分隊加班加點地手動肝。

這麼幹吧,雖說标注的量上去了,可問題也跟着來了——這批臨時拉起來的大軍,沒個統一的、客觀的标準,教育訓練啥的也不到位,全憑個人感覺在那兒判斷對錯好壞,這樣一來,資料品質參差不齊就成了常态,有的地方标得好一些,有的地方可能就馬馬虎虎。

國産AI訓練,為什麼要用外國視訊?

更讓人頭大的是,這種活兒,不僅枯燥乏味,累死累活,還掙不了幾個錢,你說誰樂意幹長久?

根據多家視訊資料标注公司的回報,大多數标注員的月薪在3000-5000元之間,國内視訊标注行業的年流失率普遍在30%-50%之間,個别公司甚至高達80%。

這行當人員流動跟走馬燈似的,公司得不停地招新人、教育訓練新人,剛教會一批,轉頭又走了一波。這直接把資料标注的品質穩定性給攪和了。

國産AI訓練,為什麼要用外國視訊?

講真,在資料總量、多樣性、标注環節均不如外網的情況下,國内的視訊AI要想崛起,該怎麼跨過資料這道難關呢?

合成資料

如果高品質資料實在難找,那走合成資料這條路,用人工素材來“投喂”AI,是否可行呢?講真,在Sora問世前,就已經有人這麼做了,例如英偉達在2021年釋出的Omniverse Replicator就是這樣一個例子。

國産AI訓練,為什麼要用外國視訊?

說白了,Omniverse Replicator就是個合成資料的平台,專攻那種超逼真的3D場景。這玩意兒牛就牛在,它造出來的視訊資料啊,每個細節都嚴絲合縫地遵循實體定律,就像是從真實世界裡直接摘出來的一樣。

這玩意兒對誰最管用?哦,那可多了去了,自動駕駛,機器人訓練什麼的,或者任何想要AI準确了解實體動态的項目。

國産AI訓練,為什麼要用外國視訊?

在進行資料合成時,Omniverse Replicator首先會将各種3D模型、貼圖和真實的材質拖進自己的平台中,之後就像搭積木那樣,用這些素材建構出各種場景,例如城市街道,工作中的工廠中的房間,或者是繁忙的馬路等等。

國産AI訓練,為什麼要用外國視訊?

接下來,為了讓制造出來的資料不那麼“死闆”、“單調”,Replicator有個厲害的功能,就是能讓人設定很多變化的因素。比如物體放哪兒、朝哪邊、長啥樣、顔色咋變、表面摸起來啥感覺,甚至是燈光怎麼打,都能讓它自己随機變來變去。

這樣做有個大好處,就是能讓最後得到的資料五花八門,能讓AI見識各種情況。這對AI資料合成來說,是至關重要的一步。

國産AI訓練,為什麼要用外國視訊?

再之後,為了精确模拟現實中的實體互動,Omniverse Replicator中的NVIDIA PhysX等實體引擎,會根據牛頓力學等實體法則,在物體發生碰撞或接觸的時候啊,計算它們的運動狀态改變,比如速度、加速度、旋轉和摩擦力等。

同時添加重力、彈性、摩擦力、流體阻力等限制條件,進而讓模拟更接近現實。

國産AI訓練,為什麼要用外國視訊?

雖然Omniverse Replicator可以生成高品質的視覺和動态3D場景,但它最擅長的是處理那些遵循實體定律的東西,比如怎麼讓虛拟的球按正确的方式彈跳。而對于那些抽象的,具有連貫邏輯和叙事性的内容,就超出了它的能力範疇了。

比如,如果人們想在視訊裡展現一個人開心的樣子,就得讓AI先學會“笑”這個表情,這可不是實體模拟能搞定的東西……

國産AI訓練,為什麼要用外國視訊?

再比如,人們喝完水後,如果杯子不是一次性的,人們往往就會将水杯放回原位,而不是随手丢掉,這樣的行為,其實更多地遵循的是人類常識,而不是純粹的實體規律。

在理論上,Omniverse Replicator無法單獨生成訓練Sora這類視訊模型所需的所有資料,特别是那些涉及進階語義了解、連貫叙事和高度抽象概念,以及複雜的人類情感和社會互動的執行個體,這些都是Omniverse Replicator目前的設計和功能範圍之外的。

另辟蹊徑

實際上,除了Omniverse Replicator這種路子外,使用虛幻5引擎生成相關資料,也是一種備選政策。

在之前Sora放出的視訊中,人們就已經發現,某些視訊片段的效果,跟此前寫實、逼真的畫風有點不一樣,看上去更像是某種“3D風格”,例如下面的這個大眼睛、長睫毛、口噴冷氣的小白龍。

國産AI訓練,為什麼要用外國視訊?

雖然OpenAI官方并未承認,但眼尖的網友一看就感覺到了,這玩意兒有虛幻5的影子!

但即使這種猜測是真的,虛幻5能提供的,大機率也隻是對光線、場景、3D資訊和實體互動的模拟資料,本質上和Omniverse Replicator一樣,隻能提供一些很“硬”的物質層面的模拟。

要真想搗鼓出一個啥都有的世界級視訊大雜燴資料集,就得想想新招。

一個挺極端的法子就是讓AI自産自銷,自己造視訊來訓練自己。但這裡頭有個坑,要是這些AI親手做的視訊在訓練材料裡占太多了,就會出現“模型自噬”的風險。

換句話說,就是生成的東西越來越差。

國産AI訓練,為什麼要用外國視訊?

在極端情況下,持續使用自我生成的資料,可能會導緻模型性能急劇下降,甚至模型完全失效,因為AI可能會将前代模型的缺陷一代代放大。

去年,萊斯大學和斯坦福團隊發現,将AI生成的内容喂給模型,隻會導緻性能下降。

研究人員對此給出一種解釋,叫做「模型自噬障礙」(MAD)。

研究發現在使用AI資料,經過第5次疊代訓練後,模型就會患上MAD。

國産AI訓練,為什麼要用外國視訊?

在合成資料上訓練AI模型會逐漸放大僞影

這其中的機理,和生物學上因“近親繁殖”導緻後代産生缺陷的情況十分類似。

正如近親繁殖中的個體因遺傳池縮小而限制了遺傳多樣性,過度依賴AI生成的資料,也會限制模型學習的多樣性,因為它反映的是前代模型的固有的了解,而非原始的真實世界多樣性。

如果将模型比作人的話,那麼任何模型,即使資料品質再高,也始終會存在稀缺的内容,就像一個人的基因即使再好,也總會存在某些稀缺的因子。

這些“缺陷”在前代模型中不明顯或可接受,通過疊代訓練過程,這些缺陷仍有可能被放大,尤其是在缺乏外部多樣性的情況下。

國産AI訓練,為什麼要用外國視訊?

研究還發現,提高合成品質會損害合成多樣性。

對大模型來說,如果想表現出更好的泛化能力(所謂的舉一反三),就需要不斷适應新的資料和場景,應對新的挑戰,進而總結出新規律、新關聯。

這就是為什麼資料多樣性,對模型如此重要的原因。

既然這中文網際網路上的高品質資料,本來就不是很多,合成資料這條路,從技術上似乎也很難走得通,那麼國産視訊大模型想要超過Sora,還能有哪些路子呢?

自我進化

如果有一種辦法,能讓模型在自己生成資料的同時,不陷入“自噬”的漩渦,還能不斷自我進化,這豈不美哉?

講真,國内已經有部分AI企業走出了這條路子,例如智子引擎團隊開發的新型多模态大模型——Awaker 1.0就是這麼個例子。

國産AI訓練,為什麼要用外國視訊?

簡單地來說,Awaker 1.0這個模型,之是以能突破以往的資料瓶頸,主要歸功于自身獨特的三大功能:自動生成資料、自我反思、持續更新。

首先,在自動生成資料方面,Awaker 1.0主要通過網絡和實體世界兩種途徑來搜集資料,也就是說,它不光在網上到處搜尋,看新聞、讀文章、學東西,還能在跟真實世界裡的智能裝置配合時,通過攝像頭看東西、聽聲音,了解周圍發生的事兒。

國産AI訓練,為什麼要用外國視訊?

不過,與簡單的資料爬取不同的是,在搜集了這些多模态的資料後,Awaker 1.0還能了解和消化這些資訊,并以此生成新的内容,比如文字、圖像甚至視訊。之後再根據這些“反刍”後的内容,不斷優化和更新自己。

接下來,強化後的Awaker 1.0可以生成品質更高、更有創意的新資料,如此循環往複,就形成了一個自我訓練的閉環。

國産AI訓練,為什麼要用外國視訊?

換句話說,這實際上是一種動态合成資料的方法,外部資料隻是給它提供了“種子”,通過不斷地自生自吞,它可以不斷放大和擴充這些初始資料,持續為自己生成新的訓練資料。

這就像是一個強悍的“增程發動機”,則巧妙地利用了少量的燃料(資料),通過一個循環放大的過程,産生出遠超燃料本身能量的動力輸出。

國産AI訓練,為什麼要用外國視訊?

同時,為了在這個閉環中,糾正資料可能的偏差,Awaker 1.0不僅會對生成的資料進行品質評分和反思,過濾掉品質不高的樣本,并且還會通過持續線上學習和疊代,根據新的外部資料和回報,確定資料的實時性和準确性。

如此一來,模型既避免了受限于有限的外部資料源,也避免了陷入純合成資料可能導緻的“模型自噬”現象。

而這種自我回報和學習的機制,實際上也暗合了AI領域要統一了解側和生成側的想法。

Sora問世後,越來越多聲音表示,要通往AGI,必須達成“了解和生成的大一統”。

這是因為,人類智能的本質就是對世界的了解和創造,目前的AI往往是專門從事了解任務(如分類、檢測)或生成任務(如語言模型、圖像生成)。但真正的智能需要打通了解和生成,形成閉環。

國産AI訓練,為什麼要用外國視訊?

說白了,要讓AI模仿人類大腦的學習模式,邊看邊想,同時在自我輸出的過程中,根據不斷變化的現實進行反思和調整。

用中國人的話來說,就是知行合一。

AI要做到這一點,就需要能夠自己生成資料來訓練自己,并從中不斷成長,随着時間推移而不斷進化。

這樣,即便面對從未見過的新情況,AI也能像人一樣,靈活應對,甚至有所創造,這就是在實作AGI上的重要一步。

繼續閱讀