背景:
大多數圖像字幕模型不能主動根據使用者的意圖來生成不同的描述。
創新點:
我們提出了抽象場景圖(ASG)結構來表示細粒度級别的使用者意圖,并控制生成的描述對象和細節。
在本工作中,我們提出了一種更細粒度的控制信号-抽象場景圖(ASG),以表示可控圖像标題生成的不同意圖。如圖1所示,ASG為一個有向圖,由三種抽象節點組成,分别是對象、屬性和關系,而每個節點不需要具體的語義标簽。是以,這種圖形結構很容易手動或自動獲得,因為它不需要語義識别。更重要的是,ASG能夠反映使用者的意圖是描述什麼和如何較長的描述。
整體分兩步:
Role-aware Graph Encoder和Language Decoder for Graphs整體來看,還是編碼解碼的思路。
Role-aware Graph Encoder主要由兩部分構成,一個是通過對結點進行映射獲得結點代表的intention資訊,另一個是使用圖卷積來捕獲多種不同的關系。這裡編碼器的最終輸出還是一個編碼好的全局的編碼向量。
Language Decoder for Graphs也包含兩個部分,一個用來在解碼過程中考慮圖的語義和結構資訊,另一個用來記錄那些結點被描述過。
解碼采用的兩層的LSTM第一層編碼出的向量,需要和圖節點映射做一個attention來獲得權重之後的語義資訊。