天天看點

國産 Sora 的秘密,藏在這個清華系大模型團隊中

作者:極客公園
在視訊 AIGC 領域,出現一個有力的國産選手。

2024 年,Sora 一直活在聚光燈下。

馬斯克不惜溢美之詞,稱「人類願賭服輸」;紅衣教主周鴻祎眼中,借助 Sora 人類實作 AGI 将縮減至一兩年。就連賣付費課程的微商,也拿「Sora」重新組裝了自己的鐮刀。

這種狂熱的蔓延,從美國到中國,從一級到二級甚至再到三級市場,像漣漪一樣,播散向全世界。

因為,在理想情況下,長視訊生成的底層邏輯,約等于世界模型。十幾秒、幾十秒的視訊中,包含了基礎的圖像處理、空間關系、實體規律、因果邏輯等等現實規律與知識的映射。小處看,可以掀翻傳統電影、遊戲制作的桌子,大處看,通往通用人工智能,這是關鍵一步。

同時,在一衆長視訊生成算法中,Sora 的技術突破是具備革命性的。相比傳統的 Stable Diffusion,Sora 采用的 Diffusion 加 Transformer 架構,既克服了 Stable Diffusion 擴充性的缺失,更是在生成内容的準确性和靈活性上有了質的飛躍。

唯一美中不足是,Sora 并非開源算法。

沒了開源,也就沒了複現的可能;沒了複現可能,那麼哪怕經管出身的合夥人睡前讀物變成了《Scalable diffusion models with transformers》,投資經理一周跑遍北京、深圳科技産業園掘地三尺,所有人都不得不承認一個現實,盡管視訊大模型企業衆多,但或許尚未等到國産 Sora 正式發掘,視訊大模型的淘汰賽就已經走到尾聲。

業内「哇聲一片」,一級市場卻空前焦慮。中國 AI 企業,隻能眼睜睜看着自己距離 Sora 越來越遠嗎?

01「國産 Sora」來了?

場上 VC 幾乎絕望之際,誰也沒曾想到,國産 Sora 的秘密,最先揭曉謎底的,竟是成立僅一年多的大模型企業——生數科技。

近日,生數科技聯合清華大學宣布推出國内首個基于純自研 U-ViT 架構的視訊大模型「Vidu」,支援一鍵生成長達 16 秒、分辨率高達 1080p 的高清視訊内容。從官宣的短片來看,Vidu 在多鏡頭生成、時間和空間一緻性、模拟真實實體世界以及想象力等方面,幾乎與 Sora 齊平。

而相比其他國産「類 Sora」的工作,Vidu 一個最明顯的特點就是,畫面時間足夠長。

一直以來,十秒幾乎是「國産 Sora」的一個生死線。要想達到或者超過十秒,則意味着對訓練素材的積累,以及如何解決算法記憶消失問題,需要做出深厚的研究。

這是 Vidu 放出的另一段官方視訊,從視訊中可以看到,白色老式 SUV 在山坡土路行駛中,滾動的輪胎會揚起灰塵,軌迹自然連貫;周圍樹林,也在陽光的照射下,遵循真實世界中的投射規律,留下光影斑駁。

形成對比的是,保證視訊時長的前提下,大部分國産「類 Sora」都很難保持人物和場景的連貫,同時也難以做到真實地遵循實體世界規律,比如吃漢堡會留下咬痕、汽車開過會留下尾氣與灰塵的痕迹。

根據行業人士透露,目前市面上之前的一些「類 Sora」模型,做到長時長的路徑,其實大多是通過插幀的方式,在視訊的每兩幀畫面中增加一幀或多幀來提升視訊的長度。

這種方法就需要對視訊進行逐幀處理,通過插入額外的幀來改善視訊長度和品質。整體畫面就會顯得僵硬而又緩慢。

但生數科技的作用原理明顯不同。基于單一模型完全端到端生成實作底層算法,直覺上,我們可以看到「一鏡到底」的絲滑感,視訊從頭到尾連續生成,沒有插幀痕迹。

另外,還有一些工具類的長視訊采用了「換湯不換藥」的做法。底層集合了許多其他模型工作,比如先基于 Stable Diffusion、Midjourney 生成單張畫面,再圖生 4s 短視訊,再做拼接。也就是說,想要一個十幾秒長視訊,那就把多個 4s 短視訊拼在一起就好,不僅整體的畫面流暢度會大打折扣,底層也并沒有實作長視訊生成能力的突破。

除了生成時長有了質的突破,從官宣視訊中我們還可以看到,Vidu 還做到了畫面連續流暢,且有細節、邏輯連貫。盡管都是運動畫面,但幾乎不會出現穿模、鬼影、運動不符合現實規律的問題。

做一個簡單對比,以下是某熱門視訊大模型團隊的視訊生成效果截圖,雖然整體視訊長度才四秒,但僅僅一個準備跳躍的動作指令,就足以讓畫面裡的小貓變成 6 隻腳,或者三根尾巴的「鬼影」。

國産 Sora 的秘密,藏在這個清華系大模型團隊中
國産 Sora 的秘密,藏在這個清華系大模型團隊中

對比如此鮮明,讓人不禁疑惑:為何ChatGPT釋出後,市場馬上湧現一批「達到 GPT 3.5,逼近 GPT4.0」的大模型産品。同樣是追趕,為什麼類 Sora 産品卻如此困難?

答案是,ChatGPT 釋出不久,Meta LLama2 開源,開源平替解決了國産 ChatGPT 技術複現的燃眉之急。而 Sora 沒有開源,技術細節未公開,這就導緻,實作「國産 Sora」就隻剩了自研這一條路可以走。

根據 OpenAI 披露的技術報告,Sora 核心技術架構背後源自一篇名為《Scalable Diffusion Models with Transformers》的論文,論文提出了一個将 Diffusion(擴散模型)和 Transformer 融合的架構——DiT,後面被 Sora 采用。

巧合的是,比 DiT 早兩個多月,清華團隊就提出了用 Transformer 替代基于 CNN 的 U-Net 的網絡架構 U-ViT。從架構路線上,兩者并無二緻。甚至過程中,還曾出現一個小插曲,由于釋出時間更早,當年計算機視覺頂會 CVPR 2023 收錄了清華大學的 U-ViT 論文,卻以「缺乏創新」為由拒稿了 Sora 底層使用的 DiT 論文。

生數科技的創始團隊正是源于清華大學該論文團隊。公司的 CTO 鮑凡就是該篇論文的第一作者,此次釋出的 Vidu 模型底層采用的就是 U-ViT 架構。也就是說,生數科技并不屬于追逐 Sora 的一員,而是一早就踏在了同一起跑線,甚至是更早。

由此窺見,生數科技成立時間雖短,但來頭卻不小。

深扒發現,論人才,其團隊核心成員來自清華大學人工智能研究院,是國内最早開展深度生成式研究的團隊。論技術,團隊多項研究成果被 OpenAI、蘋果、Stability AI 等應用于 DALL·E 2、Stable Diffusion 等模型中,是現階段在生成式領域發表論文成果數最多的國内團隊。論背景,生數科技已獲得螞蟻集團、啟明創投、BV 百度風投、位元組系錦秋基金等多家知名機構的認可,完成數億元融資。

而真做到這一切的,為什麼是生數?

02 為什麼是生數科技?

最重要的答案或許是,生數科技早早走對了技術路線。

與市面上大部分視訊生成算法采用基于 U-Net 卷積架構的傳統擴散模型不同,生數科技此次釋出的 Vidu 與 Sora 采用的都是融合架構(即上文提到的 U-ViT 與 DiT)。

所謂融合架構,可以了解為 Diffusion(擴散模型)與 Transformer 的融合。

Transformer 架構被熟知應用于大語言模型,該架構的優勢在于 scale 特性,參數量越大,效果越好,而 Diffusion 被常用于傳統視覺任務(圖像和視訊生成)中。

融合架構就是在 Diffusion Model(擴散模型)中,用 Transformer 替換常用的 U-Net 卷積網絡,将 Transformer 的可擴充性與 Diffusion 模型處理視覺資料的天然優勢進行融合,能在視覺任務下展現出卓越的湧現能力。

2022 年 9 月,團隊送出了 U-ViT 論文,在全球首次提出将擴散模型與 Transformer 融合的架構思路。兩個多月之後推出的 DiT 架構同樣采取了這一思路,而後被 Sora 采用。

相比僅在 ImageNet 上做了實驗的 DiT,U-ViT 還在小資料集(CIFAR10、CelebA)、ImageNet、圖文資料集 MSCOCO 均做了實驗。而且,相比傳統的 Transformer,U-ViT 提出了一項「長連接配接」的技術,大大提升了訓練收斂速度。

之後,團隊繼續深入。2023 年 3 月,團隊基于 U-ViT 架構在大規模圖文資料集 LAION-5B 上訓練出近 10 億參數量模型 UniDiffuser,并将其開源,UniDiffuser 支援圖文模态間的任意生成和轉換。

UniDiffuser 的實作有一項重要的價值——首次驗證了融合架構在大規模訓練任務中的可擴充性(Scaling Law),相當于将融合架構在大規模訓練任務中的所有環節流程都跑通。

值得一提的是,同為圖文模型,UniDiffuser 比最近才切換至 DiT 架構的 Stable Diffusion 3 領先了一年。

不過,雖然都選了融合架構,但在後續産品路徑的推進上,基于資源等方面的考慮,Sora 團隊選擇「每天基本不睡覺高強度工作了一年」all in 長視訊,生數科技則選擇從 2D 圖像開始,再進一步拓展到 3D 和視訊。

路線沒有對錯之分,一個基本常識是,國内創業公司,技術路線可以與 OpenAI 一樣,說明目光足夠長遠;但商業化打法參考 OpenAI 就是自尋死路——Sora 背後是 OpenAI 的技術實力,以及微軟的幾乎無限制的算力支援,普通公司沒有學習的資本。

也是是以,回顧整個 2023 年,生數科技主要資源都放在了圖像和 3D 上。到了今年 1 月份,生數科技才正式上線 4 秒短視訊生成,2 月份 Sora 釋出之後,公司正式攻堅,很快便在 3 月份就突破了 8 秒的視訊生成,4 月份實作 16 秒長度突破,生成品質與時長,全方面取得突破。

僅僅兩個月的時間就完成從 4 秒到 16 秒的訓練任務,速度令人吃驚。

背後不僅源自技術架構層面的「前瞻」,也在于通過過去圖像到 3D 到視訊的循序漸進,讓團隊積累了高效的工程化經驗。

視訊本質上是圖像在時間序列上的擴增,可以看成連續多幀的圖像,是以先從圖像開始入手,基礎建設類的工程化工作,比如資料的收集、清洗、标注以及模型的高效訓練等經驗,是可以複用的。Sora 就是這麼做的:它采用了 DALL·E 3 的重标注技術,通過為視覺訓練資料生成詳細的描述,使模型能夠更加準确地遵循使用者的文本指令生成視訊。

據悉,「Vidu」也複用了生數科技在圖文任務的很多經驗,通過在前期的圖像等任務中的準備鋪墊,生數科技利用視訊資料壓縮技術降低了輸入資料的序列次元,同時采用自研的分布式訓練架構,在保證計算精度的同時,通信效率提升 1 倍,顯存開銷降低 80%,訓練速度累計提升 40 倍。

路要一步一步走,飯要一口一口吃。在這個搶奪「國産 Sora」的商業遊戲中,技術上找對和認準方向是第一步;而走出「國産」特色,也是生存下去的必要條件,二者缺一不可。

*頭圖來源:視訊号生數shengshu

本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO

繼續閱讀