天天看點

Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments

論文連結: https://arxiv.org/abs/1804.01622.

GitHub代碼: https://github.com/google/sg2im.

對于文本生成圖檔(Text-to-Image)的任務,如果一開始将scene layout(場景布局)作為中間媒介,連接配接text domain 和 image domain,将會取得很好的結果。但是這個想法實作起來需要很多方面難題要解決,比如資料集、場景布局的處理、場景圖(scene graph)的生成以及場景圖的處理等等。

在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。

創新點有:

  1. 提出graph convolution 子產品處理輸入的scene graph。
  2. 提出兩個判别器網絡Dimg和Dobj。

與以往方法的流程有所不同,主要與stackgan作的對比

Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments

整個網絡結構:

Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments

主要有三方面的挑戰:

  1. 必須要有一個處理場景圖的方法
  2. 確定生成的圖像中個物體正确及位置關系的合理性
  3. 確定生成的圖像品質好

    輸入scene graph G和噪音 z ,輸出圖檔 I ^ \hat{I} I^

    Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments

Scene Graphs

場景圖的node(點)表示object(物體),edge(邊)表示個點間的互相關系。用數學公式表達是:

C是物體集合,R是關系集合,一個場景圖就是一個元組(O,E),O={o1,……,on},oi ∈ C,E ⊆ O x R x O是邊(oi,ri,oj)的集合,r ∈ R。

Graph Convolution Network

為了以end-to-end的方式處理場景圖,我們需要一個神經網絡模型,就是graph convolution network,它是由多個single graph convolution layer(看下圖)組成的。

Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments

vi,vj屬于輸入向量Din(vi,vj ∈ RDin),vi’,vj’屬于輸出向量Din(vi’,vj’ ∈ RDout),我們在所有的node和edges上計算輸出向量的時候都是用三個函數:gs,gp和go。輸出反映各node的互相關系的向量vr’(vr’=gp( vi,vr,vj))。計算object oi 的輸出向量 vi’是應該依賴所有的通過edges連接配接在node oi上的vj以及這些edges vr,為了這個目的,我們把所有起始在oi上的向量用gs計算一個candidate vector集合,同樣把終止在oi上的向量用go計算一個candidate vector集合,如下所示:

Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments

然後計算 vi’:

Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments

h 是一個系統函數,它可以将一個輸入向量集轉化成一個單一的輸出向量。gs,gp和go都是用來處理三個輸入向量的,之後将其送入多層感覺機(MLP)得到輸出向量vi’,vj’。

Scene Layout

為了生成圖檔,我們必須從場景圖域(graph domain)到 圖像域(image domain)。為了這個目的,我們通過計算物體嵌入向量(object embedding vectors)來計算一個場景布局(scene layout)。

Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments

輸入形狀D的嵌入向量vi到mask regression network 去預測形狀為M x M的a soft binary msk m i ^ \hat{m_{i}} mi​^​和 a box regression network 去預測一個邊界框 b i ^ = ( x 0 , y 0 , x 1 , y 1 ) \hat{b_{i}}=(x_{0},y_{0},x_{1},y_{1}) bi​^​=(x0​,y0​,x1​,y1​)。生成mask的網絡控制其值在(0,1),生成box的是MLP。我們也将嵌入向量vi與 m i ^ \hat{m_{i}} mi​^​智能相乘得到一個形狀為D x M x M 的mask embedding,然後與用雙線性插值(bilinear interpolation)想結合生成一個object layout。而對于每一個物體的嵌入向量都執行這樣的操作,是以會得到等于object數量的object layout。然後計算所有object layout的和就得到scene layout了。

注意在訓練的時候使用ground-truth 的邊界框,而在測試的時候用預測的邊界框。

Cascaded Refinement Network

對于已經生成的scene layout,我們必須合成一個盡量真實的圖檔,這是我們的任務。為了這個任務,我們使用Cascaded Refinement Network(CRN)。CRN有一系列的卷積提煉子產品(convolutional refinement modules)組成的,浙江有利于以從粗到細的方式生成圖檔。每一個子產品都會以scene layout和先前子產品的輸出作為輸入,他們在通道方向上通過一個3 x 3的卷積層連接配接作為輸入。而在第一個子產品需要以噪音z ~ pz和scene layout作為輸入。

Discriminators

為了生成真實的圖像,訓練網絡的時候用到一對判别器Dimg和Dobj。

所有的GAN網絡的判别器都有的損失函數:

Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments

不知如何翻譯,放一下原文描述吧。

Dimg:

The patch-based image discriminator Dimg ensures that the overall appearance of generated images is realistic; it classifies a regularly spaced, overlapping set of image patches as real or fake, and is implemented as a fully convolutional network.

Dobj:

The object discriminator Dobj ensures that each object in the image appears realistic; its input are the pixels of an object, cropped and rescaled to a fixed size using bilinear interpolation.In addition to classifying each object as real or fake, Dobj also ensures that each object is recognizable using an auxiliary classifier which predicts the object’s category.

Generators

生成器的訓練是最小化下列六個損失函數的權重和:

Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments
Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments

Experiments

定量結果:

Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments

還有預測的邊界框的統計(不太明白)

Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments

定性實驗:

Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments
Image Generation from Scene Graphs 論文解讀在這篇CVPR 2018的文章中,使用Visual Geome 和COCO-Stuff資料集,由Scene Graph生成與文本一緻的圖像。關于這兩個資料集詳細介紹就不說了,但是Visual Geome有現成的scene graph拿來使用,而COCO-Stuff資料集在論文中要對其處理後拿來使用。整個網絡結構:Experiments

論文中還有一些其他的實驗,詳細的請看原論文。

繼續閱讀