NÜWA：女娲算法，多模态預訓練模型，大殺四方！（附源代碼下載下傳）

關注并星标

從此不迷路

計算機視覺研究院

NÜWA：女娲算法，多模态預訓練模型，大殺四方！（附源代碼下載下傳）

公衆号ID｜ComputerVisionGzq

論文位址：https://arxiv.org/abs/2111.12417源代碼：https:// github.com/microsoft/NUWA

計算機視覺研究院專欄

作者：Edison_G

最近看到一篇論文，名字首先吸引了，内容大概看了後，覺得還是不錯的，今天有幸給大家慢慢分享，有興趣的同學可以閱讀論文，深入繼續了解！

一、前言

今天分享的論文，主要提出了一個統一的多模态預訓練模型，稱為NÜWA，可以為各種視覺合成任務生成新的或操縱現有的視覺資料（即圖像和視訊）。針對不同場景同時覆寫語言、圖像和視訊，設計了3D Transformer編碼器-解碼器架構，不僅可以将視訊作為3D資料處理，還可以分别将文本和圖像作為1D和2D資料進行适配。還提出了3D Nearby Attention(3DNA)機制來考慮視覺資料的性質并降低計算複雜度。在8個下遊任務上評估NÜWA。與幾個強大的基線相比，NÜWA在文本到圖像生成、文本到視訊生成、視訊預測等方面取得了最先進的結果。此外，它還顯示了令人驚訝的良好的文本零樣本能力——引導圖像和視訊處理任務。

8個任務的案例

二、背景

如今，網絡變得比以往任何時候都更加視覺化，圖像和視訊已成為新的資訊載體，并已被用于許多實際應用中。在此背景下，視覺合成正成為越來越受歡迎的研究課題，其目的是建構可以為各種視覺場景生成新的或操縱現有視覺資料（即圖像和視訊）的模型。

自回歸模型【Auto-regressive models】在視覺合成任務中發揮着重要作用，因為與GAN相比，它們具有顯式的密度模組化和穩定的訓練優勢。早期的視覺自回歸模型，如PixelCNN、PixelRNN、Image Transformer、iGPT和Video Transformer，都是以“pixel-by-pixel”的方式進行視覺合成的。然而，由于它們在高維視覺資料上的高計算成本，這些方法隻能應用于低分辨率的圖像或視訊，并且難以擴充。

最近，随着VQ-VAE作為離散視覺标記化方法的出現，高效和大規模的預訓練可以應用于圖像的視覺合成任務（例如DALL-E和CogView) 和視訊（例如GODIVA）。盡管取得了巨大的成功，但此類解決方案仍然存在局限性——它們分别處理圖像和視訊，并專注于生成它們中的任何一個。這限制了模型從圖像和視訊資料中受益。

三、NÜWA的表現

Text-To-Image(T2I)

一隻戴着護目鏡，盯着錄影機的狗

Sketch-To-Image (S2I)

草圖轉圖檔任務，就是根據草圖的布局，生成對應的圖檔

Image Completion (I2I)

圖像補全，如果一副圖檔殘缺了，算法可以自動“腦補”出殘缺的部分

Image Manipulation (TI2I)

圖檔處理，根據文字描述，處理圖檔

例如：有一副草原的圖檔，然後增加一段描述：一匹馬奔跑在草原上，然後就可以生成對應的圖檔。

Video

四、新架構

NÜWA模型的整體架構包含一個支援多種條件的 adaptive 編碼器和一個預訓練的解碼器，能夠同時使圖像和視訊的資訊。對于圖像補全、視訊預測、圖像處理和視訊處理任務，将輸入的部分圖像或視訊直接送入解碼器即可。

而編碼解碼器都是基于一個3D NEARBY SELF-ATTENTION（3DNA）建立的，該機制可以同時考慮空間和時間軸的上局部特性，定義如下：

W 表示可學習的權重，X 和 C 分别代表文本、圖像、視訊資料的 3D 表示。

3DNA考慮了完整的鄰近資訊，并為每個token動态生成三維鄰近注意塊。注意力矩陣還顯示出3DNA的關注部分（藍色）比三維塊稀疏注意力和三維軸稀疏注意力更平滑。

3D DATA REPRESENTATION

為了涵蓋所有文本、圖像和視訊或其草圖，研究者将它們全部視為标記并定義統一的 3D符号X∈Rh×w×s×d，其中h和w表示空間軸（分别為高度和寬度）中的标記數量，s表示時間軸上的标記數量，d是每個标記的次元。

3D NEARBY SELF-ATTENTION

基于之前的3D資料表示定義了一個統一的3D Nearby Self-Attention (3DNA) 子產品，支援自注意力和交叉注意力。首先給出方程中3DNA的定義：

并在如下等式中介紹詳細的實作。

3D ENCODER-DECODER

開始介紹基于3DNA建構的3D編碼-解碼器。為了在C∈Rh′×w′×s′×din的條件下生成目标Y∈Rh×w×s×dout，Y和C的位置編碼通過考慮高度、寬度和時間軸的三個不同的可學習詞彙更新。

然後，條件C被輸入到具有L 3DNA層堆棧的編碼器中，以對自注意力互動進行模組化，第l層在等式中表示：

同樣，解碼器也是一堆L 3DNA層。解碼器計算生成結果的自注意力以及生成結果和條件之間的交叉注意力。第l層表示如下等式。

五、實驗簡單分析

其他實驗可在論文中擷取！

轉載請聯系本公衆号獲得授權

計算機視覺研究院學習群等你加入！

計算機視覺研究院主要涉及深度學習領域，主要緻力于人臉檢測、人臉識别，多目标檢測、目标跟蹤、圖像分割等研究方向。研究院接下來會不斷分享最新的論文算法新架構，我們這次改革不同點就是，我們要着重”研究“。之後我們會針對相應領域分享實踐過程，讓大家真正體會擺脫理論的真實場景，培養愛動手程式設計愛動腦思考的習慣！

計算機視覺研究院

公衆号ID｜ComputerVisionGzq

🔗

NÜWA：女娲算法，多模态預訓練模型，大殺四方！（附源代碼下載下傳）

繼續閱讀

探索OpenLLMLeaderboard中的有趣問題：LLaMA模型的MMLU評估數字為什麼那麼低？最近在Twitter

#行業觀察【ChatGPT洞察和未來資料商機】-為何堅持寫原創，比AI薅羊毛更有價值？【一】緣由正如某社交群中，大家讨論

MD5加密,java String 轉變成MD5 String 詳細代碼，工具類Android開發必備

java生成四位随機數，包含數字和字母區分大小寫，特别适合做驗證碼，android開發...

java生成四位随機數，包含數字和字母區分大小寫，特别适合做驗證碼，android開發

swintransformer花類識别系統。大家好，今天給大家介紹的是swintransform的圖像分類識别系統。然後

基于遷移學習的松散礫石路面分類前言：礫石路連接配接着人口稀少的地區，為農業和林業産品提供了通道。在交通量較低的地方，也考慮使

目前在國内大規模企業分為三類，其中包括網際網路企業、人工智能企業和初創研究企業。在目前這個時代，人工智能和大模型有些相似，

Transformer模型最開始是使用在NLP自然語言處理的模型，但是注意力機制越來越火🔥，且注意力機制跟人進行學習的方

關注數字技術大國競争！在人工智能這塊制高點上，決勝的關鍵在于這個要素。但很遺憾，目前美國這個資料是中國的2.6倍！大國産

NLP學習—24.Pre-trained Word Embedding—ELMO、GPT、Bert

預訓練模型（1）---- ELMO&GPT&Bert

GPT和BERT優缺點比較

GPT模型GPT模型

《資料結構與算法分析（C++語言描述）》

《論文閱讀》SAPBERT: Speaker-Aware Pretrained BERT for Emotion Recognition in Conversation