天天看點

論文筆記:Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

背景:

大多數圖像字幕模型不能主動根據使用者的意圖來生成不同的描述。

創新點:

我們提出了抽象場景圖(ASG)結構來表示細粒度級别的使用者意圖,并控制生成的描述對象和細節。

論文筆記:Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

在本工作中,我們提出了一種更細粒度的控制信号-抽象場景圖(ASG),以表示可控圖像标題生成的不同意圖。如圖1所示,ASG為一個有向圖,由三種抽象節點組成,分别是對象、屬性和關系,而每個節點不需要具體的語義标簽。是以,這種圖形結構很容易手動或自動獲得,因為它不需要語義識别。更重要的是,ASG能夠反映使用者的意圖是描述什麼和如何較長的描述。

論文筆記:Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

整體分兩步:

Role-aware Graph Encoder和Language Decoder for Graphs整體來看,還是編碼解碼的思路。

Role-aware Graph Encoder主要由兩部分構成,一個是通過對結點進行映射獲得結點代表的intention資訊,另一個是使用圖卷積來捕獲多種不同的關系。這裡編碼器的最終輸出還是一個編碼好的全局的編碼向量。

Language Decoder for Graphs也包含兩個部分,一個用來在解碼過程中考慮圖的語義和結構資訊,另一個用來記錄那些結點被描述過。

解碼采用的兩層的LSTM第一層編碼出的向量,需要和圖節點映射做一個attention來獲得權重之後的語義資訊。

論文筆記:Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
論文筆記:Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

繼續閱讀