天天看點

論文閱讀筆記CVPR2020 Semantic Image Manipulation Using Scene Graphs

1、基于原圖(source image),模型首先生成場景圖,接下來使用者對場景圖進行修改,通過修改場景圖來完成圖像的語義編輯,最後模型根據修改的場景圖生成新的圖檔。

 2、不需要image對,目标就是通過給定使用者一張圖結構,使用者通過更改節點關系,模型根據新的圖結構與原圖進行修改獲得新圖檔。

 3、給定一個圖像,使用各自的場景圖來操作它。

4、貢獻:不需要完全監督,也就是說,不需要有場景更改的圖像對。可以看作是半自動的,因為使用者不需要手動編輯圖像,而是通過圖的節點和邊間接地與它互動。通過這種方式,就有可能對圖像中的視覺實體以及它們在空間和語義上互相作用的方式進行修改。最顯著的是,用一個模型實作了各種類型的編輯,包括對象之間的語義關系變化。生成的圖像保留了原始内容,但允許使用者根據需要靈活地更改和/或整合新的或修改過的内容

5、方法:輸入一個image i,先生成場景圖g,然後根據使用者修改的g和原始内容i,生成新的image i'。

6、分為三個互相聯系的部分,第一步是場景圖生成,将圖像内容編碼為空間語義場景圖,使其易于使用者操作。其次,使用者通過直接作用于場景圖的節點和邊來修改對象類别、位置或關系,進而對場景圖進行操作。第三步,由修改後的圖生成輸出圖像。

7、場景圖預測方法使用的是F-Net

8、把object定義為一個三元組

論文閱讀筆記CVPR2020 Semantic Image Manipulation Using Scene Graphs

    

論文閱讀筆記CVPR2020 Semantic Image Manipulation Using Scene Graphs

9、作者在 CLVER 和 Visual Genome 兩個資料集上進行了試驗。CLVER 資料集是利用模拟器生成的合成資料集,

可以得到圖檔的修改操作和修改前後的資訊,便于對模型進行定量的分析。Visual Genome 資料集則可測評該模型在無限制的真實場景中的效果。

10、

(1)在測試階段,模型首先利用比較成熟的技術,為輸入的圖檔生成場景圖,表示圖檔中出現的對象和它們之間的關系。

接下來,使用者對場景圖進行修改。最後,模型根據使用者的修改操作進行圖檔生成。

(2)而在訓練階段,輸入一張圖檔,模型首先利用預訓練模型對圖檔中的物體進行檢測,提取這些對象的視覺特征(包括屬性資訊和位置資訊)。

接下來,模型利用比較成熟的技術為圖檔生成其場景圖。然後,模型以一定的機率将圖檔中的一些對象和提取的視覺特征遮蓋。最後,模型根據被遮蓋的,

殘缺不全的原圖和場景圖重構原圖。通過這樣的方式,模型不需要(I,G,g,i)作為訓練資料,而可以利用大量易得的顯存圖檔資料集。

(3)那麼為什麼遮蓋 - 重構的過程可以在訓練階段代替修改 - 重構的過程?

以女孩騎馬的圖檔為例。當将女孩和馬的關系‘騎’修改為‘在旁邊’時,模型需要重新安排這些物體的空間位置關系,也就是将原有的關系丢棄,

根據修改後的場景圖和其他對象以及關系資訊重構圖像。這個丢棄原有關系重新預測的過程,就可類比為将特征遮蓋并預測的過程。

 11、training