天天看點

英偉達推出GAN“超級縫合體”,輸入文字草圖都能生成逼真照片

曉查 發自 凹非寺 量子位 報道 | 公衆号 QbitAI

繼GauGAN2之後,英偉達推出了一個GAN的“超級縫合體”——PoE GAN。

PoE GAN可以接受多種模态的輸入,文字描述、圖像分割、草圖、風格都可以轉化為圖檔。

英偉達推出GAN“超級縫合體”,輸入文字草圖都能生成逼真照片

而且它可以同時接受以上幾種輸入模态的任意兩種組合,這便是PoE的含義。

英偉達推出GAN“超級縫合體”,輸入文字草圖都能生成逼真照片

所謂PoE是Hinton在2002年提出的“專家乘積”(product of experts)概念,每個專家(單獨模型)被定義為輸入空間上的一個機率模型。

而每種單獨的輸入模态都是合成圖像必須滿足的限制條件,是以滿足所有限制的一組圖像是滿足每個限制集合的交集。

英偉達推出GAN“超級縫合體”,輸入文字草圖都能生成逼真照片

假設每種限制的聯合條件機率分布都服從高斯分布,就用單條件機率分布的乘積來表述交集的分布。

英偉達推出GAN“超級縫合體”,輸入文字草圖都能生成逼真照片

在此條件下,為了使乘積分布在一個區域具有高密度,每個單獨的分布需要在該區域具有高密度,進而滿足每個限制。

而PoE GAN的重點是如何将每種輸入混合在一起。

PoE GAN的設計

PoE GAN的生成器使用全局PoE-Net将不同類型輸入的變化混合起來。

我們将每個模态輸入編碼為特征向量,然後使用PoE彙總到全局PoE-Net中。解碼器不僅使用全局PoE-Net的輸出,還直接連接配接分割和草圖編碼器,以此來輸出圖像。

英偉達推出GAN“超級縫合體”,輸入文字草圖都能生成逼真照片

全局PoE-Net的結構如下,這裡使用一個潛在的特征矢量z0作為樣本使用PoE,然後由MLP處理以輸出特征向量w。

英偉達推出GAN“超級縫合體”,輸入文字草圖都能生成逼真照片

在鑒别器部分,作者提出了一種多模态投影鑒别器,将投影鑒别器推廣到處理多個條件輸入。

與計算圖像嵌入和條件嵌入之間單個内積的标準投影鑒别器不同,這裡要計算每個輸入模态的内積,并将其相加以獲得最終損失。

英偉達推出GAN“超級縫合體”,輸入文字草圖都能生成逼真照片

随意變換輸入的GAN

PoE可以在單模态輸入、多模态輸入甚至無輸入時生成圖檔。

當使用單個輸入模态進行測試時,PoE-GAN的表現優于之前專門為該模态設計的SOTA方法。

例如在分割輸入模态中,PoE-GAN優于此前的SPADE和OASIS。

英偉達推出GAN“超級縫合體”,輸入文字草圖都能生成逼真照片

在文本輸入模态中,PoE-GAN優于文本到圖像模型DF-GAN、DM-GAN+CL。

英偉達推出GAN“超級縫合體”,輸入文字草圖都能生成逼真照片

當以模式的任意子集為條件時,PoE-GAN可以生成不同的輸出圖像。下面展示了PoE-GAN的随機樣本,條件是兩種模式(文本+分割、文本+草圖、分割+草圖)在景觀圖像資料集上。

英偉達推出GAN“超級縫合體”,輸入文字草圖都能生成逼真照片

PoE-GAN甚至還能沒有輸入,此時PoE-GAN就會成為一個無條件的生成模型。以下是PoE-GAN無條件生成的樣本。

英偉達推出GAN“超級縫合體”,輸入文字草圖都能生成逼真照片

團隊介紹

論文通訊作者是英偉達著名工程師劉洺堉,他的研究重點是深度生成模型及其應用。英偉達Canvas和GauGAN等有趣的産品均出自他手。

英偉達推出GAN“超級縫合體”,輸入文字草圖都能生成逼真照片

論文一作是黃勳,北京航空航天大學大學畢業,康奈爾大學博士,現在在英偉達工作。

英偉達推出GAN“超級縫合體”,輸入文字草圖都能生成逼真照片

論文位址: https://arxiv.org/abs/2112.05130

PoE: https://www.cs.toronto.edu/~hinton/absps/icann-99.pdf

投影鑒别器: https://arxiv.org/abs/1802.05637

繼續閱讀