天天看點

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

作者:計算機視覺研究院

關注并星标

從此不迷路

計算機視覺研究院

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)
NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

公衆号ID|ComputerVisionGzq

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)
NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

論文位址:https://arxiv.org/abs/2111.12417源代碼:https:// github.com/microsoft/NUWA

計算機視覺研究院專欄

作者:Edison_G

最近看到一篇論文,名字首先吸引了,内容大概看了後,覺得還是不錯的,今天有幸給大家慢慢分享,有興趣的同學可以閱讀論文,深入繼續了解!

一、前言

今天分享的論文,主要提出了一個統一的多模态預訓練模型,稱為NÜWA,可以為各種視覺合成任務生成新的或操縱現有的視覺資料(即圖像和視訊)。針對不同場景同時覆寫語言、圖像和視訊,設計了3D Transformer編碼器-解碼器架構,不僅可以将視訊作為3D資料處理,還可以分别将文本和圖像作為1D和2D資料進行适配。還提出了3D Nearby Attention(3DNA)機制來考慮視覺資料的性質并降低計算複雜度。在8個下遊任務上評估NÜWA。與幾個強大的基線相比,NÜWA在文本到圖像生成、文本到視訊生成、視訊預測等方面取得了最先進的結果。此外,它還顯示了令人驚訝的良好的文本零樣本能力——引導圖像和視訊處理任務。

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

8個任務的案例

二、背景

如今,網絡變得比以往任何時候都更加視覺化,圖像和視訊已成為新的資訊載體,并已被用于許多實際應用中。在此背景下,視覺合成正成為越來越受歡迎的研究課題,其目的是建構可以為各種視覺場景生成新的或操縱現有視覺資料(即圖像和視訊)的模型。

自回歸模型【Auto-regressive models】在視覺合成任務中發揮着重要作用,因為與GAN相比,它們具有顯式的密度模組化和穩定的訓練優勢。早期的視覺自回歸模型,如PixelCNN、PixelRNN、Image Transformer、iGPT和Video Transformer,都是以“pixel-by-pixel”的方式進行視覺合成的。然而,由于它們在高維視覺資料上的高計算成本,這些方法隻能應用于低分辨率的圖像或視訊,并且難以擴充。

最近,随着VQ-VAE作為離散視覺标記化方法的出現,高效和大規模的預訓練可以應用于圖像的視覺合成任務(例如DALL-E和CogView) 和視訊(例如GODIVA)。盡管取得了巨大的成功,但此類解決方案仍然存在局限性——它們分别處理圖像和視訊,并專注于生成它們中的任何一個。這限制了模型從圖像和視訊資料中受益。

三、NÜWA的表現

  • Text-To-Image(T2I)
NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

一隻戴着護目鏡,盯着錄影機的狗

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)
  • Sketch-To-Image (S2I)
NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

草圖轉圖檔任務,就是根據草圖的布局,生成對應的圖檔

  • Image Completion (I2I)
NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

圖像補全,如果一副圖檔殘缺了,算法可以自動“腦補”出殘缺的部分

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)
  • Image Manipulation (TI2I)

圖檔處理,根據文字描述,處理圖檔

例如:有一副草原的圖檔,然後增加一段描述:一匹馬奔跑在草原上,然後就可以生成對應的圖檔。

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)
  • Video
NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

四、新架構

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

NÜWA模型的整體架構包含一個支援多種條件的 adaptive 編碼器和一個預訓練的解碼器,能夠同時使圖像和視訊的資訊。對于圖像補全、視訊預測、圖像處理和視訊處理任務,将輸入的部分圖像或視訊直接送入解碼器即可。

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

而編碼解碼器都是基于一個3D NEARBY SELF-ATTENTION(3DNA)建立的,該機制可以同時考慮空間和時間軸的上局部特性,定義如下:

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

W 表示可學習的權重,X 和 C 分别代表文本、圖像、視訊資料的 3D 表示。

3DNA考慮了完整的鄰近資訊,并為每個token動态生成三維鄰近注意塊。注意力矩陣還顯示出3DNA的關注部分(藍色)比三維塊稀疏注意力和三維軸稀疏注意力更平滑。

  • 3D DATA REPRESENTATION

為了涵蓋所有文本、圖像和視訊或其草圖,研究者将它們全部視為标記并定義統一的 3D符号X∈Rh×w×s×d,其中h和w表示空間軸(分别為高度和寬度)中的标記數量,s表示時間軸上的标記數量,d是每個标記的次元。

  • 3D NEARBY SELF-ATTENTION

基于之前的3D資料表示定義了一個統一的3D Nearby Self-Attention (3DNA) 子產品,支援自注意力和交叉注意力。首先給出方程中3DNA的定義:

并在如下等式中介紹詳細的實作。

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)
NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)
NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)
  • 3D ENCODER-DECODER

開始介紹基于3DNA建構的3D編碼-解碼器。為了在C∈Rh′×w′×s′×din的條件下生成目标Y∈Rh×w×s×dout,Y和C的位置編碼通過考慮高度、寬度和時間軸的三個不同的可學習詞彙更新。

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

然後,條件C被輸入到具有L 3DNA層堆棧的編碼器中,以對自注意力互動進行模組化,第l層在等式中表示:

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

同樣,解碼器也是一堆L 3DNA層。解碼器計算生成結果的自注意力以及生成結果和條件之間的交叉注意力。第l層表示如下等式。

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

五、實驗簡單分析

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)
NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

其他實驗可在論文中擷取!

© The Ending

轉載請聯系本公衆号獲得授權

NÜWA:女娲算法,多模态預訓練模型,大殺四方!(附源代碼下載下傳)

計算機視覺研究院學習群等你加入!

計算機視覺研究院主要涉及深度學習領域,主要緻力于人臉檢測、人臉識别,多目标檢測、目标跟蹤、圖像分割等研究方向。研究院接下來會不斷分享最新的論文算法新架構,我們這次改革不同點就是,我們要着重”研究“。之後我們會針對相應領域分享實踐過程,讓大家真正體會擺脫理論的真實場景,培養愛動手程式設計愛動腦思考的習慣!

計算機視覺研究院

公衆号ID|ComputerVisionGzq

🔗

繼續閱讀