國産AI訓練，為什麼要用外國視訊？

生成式AI的這股浪潮翻湧到現在，已經一年多了。

如果要論在這股浪潮中，哪一類模型是AI領域“王冠上的寶石”，那一定是文生視訊模型莫屬。

從技術層面來說，Sora、Vidu這列視訊大模型，最核心的價值，在于它們實作了跨媒介的資訊合成與創造，進而形成了文本、圖像、與視訊等不同模态的“大一統”。

而這樣的“大一統”，或許正是人類通向AGI的關鍵。

在這個“大一統”的架構下，資料不再被單一模态所限，而是作為多元度資訊的綜合體被了解和運用。

正如圖靈獎得主，AI三巨頭之一的Yann LeCun所提出的“世界模型”理論所述，現如今的 LLM （大模型）都隻是在文本上訓練的，是以隻能非常粗淺地了解世界。

即使 LLM 憑借大量參數和海量訓練資料，能展現出過人的文本了解能力，但它們本質上捕獲的依然隻是文本的統計規律，并不真正了解文本在現實世界中所代表的含義。

AI三巨頭之一 Yann LeCun

而如果模型能使用更多感官信号（比如視覺）學習世界的運作模式，那麼就能更加深刻地了解現實。進而感覺那些無法僅憑文字傳達的規律、現象。

從這個角度來說，誰能率先通過多模态的世界模型，讓AI掌握現實實體的規律，誰或許就能率先突破文本和語義的限制，在通往AGI的路上先登上一個大台階。

這也是為什麼，OpenAI目前如此傾注于Sora的原因。

雖然前段時間，Vidu的出現給國産視訊技術長臉了，在Sora這樣的行業霸主面前挺直了腰闆，但大家夥兒在歡欣鼓舞的同時，細心一看Vidu的示範視訊，發現個挺有意思的事兒：裡面老外的臉蛋特别多。

這一下子，可讓大家夥兒琢磨開了，感覺像是無意中扯出了咱們在收集視訊資料這塊兒的一個小辮子——高品質資料不足。

資料之困

如果說，現階段真有制約視訊生成模型發展的硬門檻，那麼這樣的門檻，無非就是算力、算法與資料。

而其中的前兩者，實際上隻要有錢，有人才，實際上都能搞得定，唯獨資料，一旦落下了，後面想追平，可就得費老大勁兒了。就像身高一樣，拉開了就很難追趕。

講真，雖然從絕對總量來看，中文網際網路上視訊内容也不少了，但其中真正可用于AI訓練的高品質資料，卻并不如外網豐富。

例如，在視訊目标檢測方面，YouTube視訊資料集VIS包含2,904個視訊序列,共超過25萬個标注目标執行個體。國内視訊目标檢測資料集，如華為的OTB-88，僅包含88個視訊序列。

而在行為識别資料集方面，由國際上同樣知名的HACS資料集，包含了140萬個視訊片段，涵蓋200個人類日常行為類别。相較之下，國内阿裡雲的天池行為識别資料集，雖然也是涵蓋200個行為類别，但僅僅包含了20萬個視訊片段。

造成這一差距的原因，從視訊生态上來說，主要是因為國内的很多主流視訊網站，例如愛優騰，釋出的大都是一些影視劇、綜藝、娛樂等内容。

而流量最大的抖音、快手這些短視訊平台，也都是滿屏的搞笑段子、生活小竅門，本來時長就很短了，其中還不乏很多剪輯、搬運、抄襲的作品。

這麼一來，AI想找點“正經飯”吃，還真不容易。

對于視訊AI訓練來說，這樣的視訊，要麼過于集中于特定類型，缺乏日常生活等多樣化的場景，要麼時長太短，缺乏深度和連貫的叙事，這不利于AI學習到長序列的連貫性、故事邏輯和因果關系。

與之相比，專業團隊制作的電影、紀錄片等内容，往往才是視訊AI所需的高品質資料。

因為這些題材不僅種類豐富，時長夠長，并且十分重細節呈現，更有利于AI模型捕捉到光線變化、物體材質方面的差別，進而提升其生成的精準度。

視訊資料這塊兒地兒，咱們不光是缺高品質的内容，還有個頭疼的事兒——資料标注，這可是塊難啃的骨頭。就算視訊拍得品質再高，但你直接甩給AI，它也不能厘清其中的物品。

是以收集好視訊資料後，得有人耐着性子，一幀一幀地告訴AI：“瞧見沒，這條線動的是車流，那個兩腳走路的是行人。”

要搞定資料标注這個既費勁又海量的活兒，沒點厲害的家夥事兒可不成。例如，為提升标注效率，國外就湧現出了一批互動式視訊标注工具，如CVAT， iMerit等。這些工具內建了自動跟蹤、插值等算法，能夠大幅減少人工标注的工作量。

反觀咱們國内，由于自動化标注工具不那麼普及，多半還是靠人海戰術，大批的标注小分隊加班加點地手動肝。

這麼幹吧，雖說标注的量上去了，可問題也跟着來了——這批臨時拉起來的大軍，沒個統一的、客觀的标準，教育訓練啥的也不到位，全憑個人感覺在那兒判斷對錯好壞，這樣一來，資料品質參差不齊就成了常态，有的地方标得好一些，有的地方可能就馬馬虎虎。

更讓人頭大的是，這種活兒，不僅枯燥乏味，累死累活，還掙不了幾個錢，你說誰樂意幹長久？

根據多家視訊資料标注公司的回報，大多數标注員的月薪在3000-5000元之間，國内視訊标注行業的年流失率普遍在30%-50%之間，個别公司甚至高達80%。

這行當人員流動跟走馬燈似的，公司得不停地招新人、教育訓練新人，剛教會一批，轉頭又走了一波。這直接把資料标注的品質穩定性給攪和了。

講真，在資料總量、多樣性、标注環節均不如外網的情況下，國内的視訊AI要想崛起，該怎麼跨過資料這道難關呢？

合成資料

如果高品質資料實在難找，那走合成資料這條路，用人工素材來“投喂”AI，是否可行呢？講真，在Sora問世前，就已經有人這麼做了，例如英偉達在2021年釋出的Omniverse Replicator就是這樣一個例子。

說白了，Omniverse Replicator就是個合成資料的平台，專攻那種超逼真的3D場景。這玩意兒牛就牛在，它造出來的視訊資料啊，每個細節都嚴絲合縫地遵循實體定律，就像是從真實世界裡直接摘出來的一樣。

這玩意兒對誰最管用？哦，那可多了去了，自動駕駛，機器人訓練什麼的，或者任何想要AI準确了解實體動态的項目。

在進行資料合成時，Omniverse Replicator首先會将各種3D模型、貼圖和真實的材質拖進自己的平台中，之後就像搭積木那樣，用這些素材建構出各種場景，例如城市街道，工作中的工廠中的房間，或者是繁忙的馬路等等。

接下來，為了讓制造出來的資料不那麼“死闆”、“單調”，Replicator有個厲害的功能，就是能讓人設定很多變化的因素。比如物體放哪兒、朝哪邊、長啥樣、顔色咋變、表面摸起來啥感覺，甚至是燈光怎麼打，都能讓它自己随機變來變去。

這樣做有個大好處，就是能讓最後得到的資料五花八門，能讓AI見識各種情況。這對AI資料合成來說，是至關重要的一步。

再之後，為了精确模拟現實中的實體互動，Omniverse Replicator中的NVIDIA PhysX等實體引擎，會根據牛頓力學等實體法則，在物體發生碰撞或接觸的時候啊，計算它們的運動狀态改變，比如速度、加速度、旋轉和摩擦力等。

同時添加重力、彈性、摩擦力、流體阻力等限制條件，進而讓模拟更接近現實。

雖然Omniverse Replicator可以生成高品質的視覺和動态3D場景，但它最擅長的是處理那些遵循實體定律的東西，比如怎麼讓虛拟的球按正确的方式彈跳。而對于那些抽象的，具有連貫邏輯和叙事性的内容，就超出了它的能力範疇了。

比如，如果人們想在視訊裡展現一個人開心的樣子，就得讓AI先學會“笑”這個表情，這可不是實體模拟能搞定的東西……

再比如，人們喝完水後，如果杯子不是一次性的，人們往往就會将水杯放回原位，而不是随手丢掉，這樣的行為，其實更多地遵循的是人類常識，而不是純粹的實體規律。

在理論上，Omniverse Replicator無法單獨生成訓練Sora這類視訊模型所需的所有資料，特别是那些涉及進階語義了解、連貫叙事和高度抽象概念，以及複雜的人類情感和社會互動的執行個體，這些都是Omniverse Replicator目前的設計和功能範圍之外的。

另辟蹊徑

實際上，除了Omniverse Replicator這種路子外，使用虛幻5引擎生成相關資料，也是一種備選政策。

在之前Sora放出的視訊中，人們就已經發現，某些視訊片段的效果，跟此前寫實、逼真的畫風有點不一樣，看上去更像是某種“3D風格”，例如下面的這個大眼睛、長睫毛、口噴冷氣的小白龍。

雖然OpenAI官方并未承認，但眼尖的網友一看就感覺到了，這玩意兒有虛幻5的影子！

但即使這種猜測是真的，虛幻5能提供的，大機率也隻是對光線、場景、3D資訊和實體互動的模拟資料，本質上和Omniverse Replicator一樣，隻能提供一些很“硬”的物質層面的模拟。

要真想搗鼓出一個啥都有的世界級視訊大雜燴資料集，就得想想新招。

一個挺極端的法子就是讓AI自産自銷，自己造視訊來訓練自己。但這裡頭有個坑，要是這些AI親手做的視訊在訓練材料裡占太多了，就會出現“模型自噬”的風險。

換句話說，就是生成的東西越來越差。

在極端情況下，持續使用自我生成的資料，可能會導緻模型性能急劇下降，甚至模型完全失效，因為AI可能會将前代模型的缺陷一代代放大。

去年，萊斯大學和斯坦福團隊發現，将AI生成的内容喂給模型，隻會導緻性能下降。

研究人員對此給出一種解釋，叫做「模型自噬障礙」（MAD）。

研究發現在使用AI資料，經過第5次疊代訓練後，模型就會患上MAD。

在合成資料上訓練AI模型會逐漸放大僞影

這其中的機理，和生物學上因“近親繁殖”導緻後代産生缺陷的情況十分類似。

正如近親繁殖中的個體因遺傳池縮小而限制了遺傳多樣性，過度依賴AI生成的資料，也會限制模型學習的多樣性，因為它反映的是前代模型的固有的了解，而非原始的真實世界多樣性。

如果将模型比作人的話，那麼任何模型，即使資料品質再高，也始終會存在稀缺的内容，就像一個人的基因即使再好，也總會存在某些稀缺的因子。

這些“缺陷”在前代模型中不明顯或可接受，通過疊代訓練過程，這些缺陷仍有可能被放大，尤其是在缺乏外部多樣性的情況下。

研究還發現，提高合成品質會損害合成多樣性。

對大模型來說，如果想表現出更好的泛化能力（所謂的舉一反三），就需要不斷适應新的資料和場景，應對新的挑戰，進而總結出新規律、新關聯。

這就是為什麼資料多樣性，對模型如此重要的原因。

既然這中文網際網路上的高品質資料，本來就不是很多，合成資料這條路，從技術上似乎也很難走得通，那麼國産視訊大模型想要超過Sora，還能有哪些路子呢？

自我進化

如果有一種辦法，能讓模型在自己生成資料的同時，不陷入“自噬”的漩渦，還能不斷自我進化，這豈不美哉？

講真，國内已經有部分AI企業走出了這條路子，例如智子引擎團隊開發的新型多模态大模型——Awaker 1.0就是這麼個例子。

簡單地來說，Awaker 1.0這個模型，之是以能突破以往的資料瓶頸，主要歸功于自身獨特的三大功能：自動生成資料、自我反思、持續更新。

首先，在自動生成資料方面，Awaker 1.0主要通過網絡和實體世界兩種途徑來搜集資料，也就是說，它不光在網上到處搜尋，看新聞、讀文章、學東西，還能在跟真實世界裡的智能裝置配合時，通過攝像頭看東西、聽聲音，了解周圍發生的事兒。

不過，與簡單的資料爬取不同的是，在搜集了這些多模态的資料後，Awaker 1.0還能了解和消化這些資訊，并以此生成新的内容，比如文字、圖像甚至視訊。之後再根據這些“反刍”後的内容，不斷優化和更新自己。

接下來，強化後的Awaker 1.0可以生成品質更高、更有創意的新資料，如此循環往複，就形成了一個自我訓練的閉環。

換句話說，這實際上是一種動态合成資料的方法，外部資料隻是給它提供了“種子”，通過不斷地自生自吞，它可以不斷放大和擴充這些初始資料，持續為自己生成新的訓練資料。

這就像是一個強悍的“增程發動機”，則巧妙地利用了少量的燃料（資料），通過一個循環放大的過程，産生出遠超燃料本身能量的動力輸出。

同時，為了在這個閉環中，糾正資料可能的偏差，Awaker 1.0不僅會對生成的資料進行品質評分和反思，過濾掉品質不高的樣本，并且還會通過持續線上學習和疊代，根據新的外部資料和回報，確定資料的實時性和準确性。

如此一來，模型既避免了受限于有限的外部資料源，也避免了陷入純合成資料可能導緻的“模型自噬”現象。

而這種自我回報和學習的機制，實際上也暗合了AI領域要統一了解側和生成側的想法。

Sora問世後，越來越多聲音表示，要通往AGI，必須達成“了解和生成的大一統”。

這是因為，人類智能的本質就是對世界的了解和創造，目前的AI往往是專門從事了解任務(如分類、檢測)或生成任務(如語言模型、圖像生成)。但真正的智能需要打通了解和生成，形成閉環。

說白了，要讓AI模仿人類大腦的學習模式，邊看邊想，同時在自我輸出的過程中，根據不斷變化的現實進行反思和調整。

用中國人的話來說，就是知行合一。

AI要做到這一點，就需要能夠自己生成資料來訓練自己，并從中不斷成長，随着時間推移而不斷進化。

這樣，即便面對從未見過的新情況，AI也能像人一樣，靈活應對，甚至有所創造，這就是在實作AGI上的重要一步。

國産AI訓練，為什麼要用外國視訊？

繼續閱讀

被指為涉嫌詐騙的元本學堂錄宣傳視訊，杜旭東回應了

iPhone16新更新追上Pro，這方面設計變了，有望支援空間視訊拍攝

國産作業系統的毒瘤，“猜你喜歡”滾出手機

尴尬：被蘋果踢掉的供應鍊，國産手機扶不起

外媒公布MSI單殺排行榜，隻有兩位國産選手進入前十，bin排名第二

網紅“王媽”團隊走紅史：00後主創大學期間拍短視訊月入70萬，23歲全款買保時捷卡宴

是供應鍊技術還是自研？國産手機續航暴漲背後的秘密

蘋果釋出緊急通知，要求更新 iPhone 避免詐騙視訊電話

奈飛限制級韓劇！尺度炸裂堪比《鱿魚遊戲》，國産劇不敢拍的都有！

千萬粉絲網紅“王媽”公司道歉！大學期間拍短視訊月入70萬，23歲全款買保時捷

别糾結續航了！國産機進入6000mAh電池時代

OpenAI官宣啟動“下一代前沿模型”訓練！訓練參數預計将得到更大提升，或整合“文生視訊”模型Sora

不止華為！曾經第一的國産，徹底殺回來了

國産大飛機商業營運全面提速：C919投運一周年傳遞六架，籌謀海外市場擴張

活該嗎？啥都收費，國産電視自尋死路，如今跌到200塊都沒人要了

陳亞男後悔了！大衣哥孫子辦滿月宴，陳亞男卻發視訊說想哭一場