目錄
abstract
introduction
abstract
- phrase grounding:給出一張圖檔和一個自然語言描述的問題,在圖檔中定位問題中所提到的物體。是很多問題的基礎(如 image retrieval、image QA 和 video QA)。
- 在弱監督的場景中,圖像區域 image regions(如proposals)和語言之間的映射在訓練集中不存在。之前有方法通過在對predicted proposals 的 input queries 中獲得的學習語言重建資訊訓練一個grounding system來解決這個問題。但這種優化僅僅是由語言模型的重建損失指導的,忽視了在proposals中的豐富的視覺資訊及其他知識。
本文中,我們探讨了視覺和語言模型的關聯,并利用互補的外部知識來促進弱監督grounding。我們提出了知識輔助一緻性網絡(Knowledge Aided Consistency Network,KAC Net)。為了利用在視覺特征中存在的互補知識,使用基于知識的池化(Knowledge Based Pooling,KBP)門來關注query-related proposals。
introduction
- 使用傳統方法來訓練一個phrase grounding系統需要大量的人工标注來訓示輸入查詢與所提到的圖像中對象之間的映射,浪費時間且人為因素不準确。進而引出了半監督的方法。
- 為了找到視覺和語言模型的關聯,proposal generation sysgtem根據輸入的圖檔産生一組候選regions(如proposals),phrase grounding任務作為檢索問題來搜尋與query最相關的proposals。基于此,學習attention 機制來自适應地 attend 在input queries中提到的objects。
- 由于使用了弱監督地資料來訓練phrase grounding系統,沒有語言和視覺模型之間的直接映射。

如上圖(c)所示,将問題編碼成embedding vector,并在圖像中提取一組object proposals作為 視覺特征。
為了找到query與proposals之間的正确映射,《Grounding of textual phrases in images by reconstruction》将query與連續的proposals相連,一旦有一個proposal被選中,将根據它重建一個phrase,然後評估語言和輸入query的一緻性。《Weakly-supervised visual grounding of phrases with linguistic structures》使用了連續的attention映射并且嘗試重建input query和它的上下文的結構。
本文提出了兩種方法來克服弱監督訓練帶來的問題。1.預訓練的、固定種類的檢測器可以為 選擇應該被attend的proposals 提供有用的知識。 2.探測器知識使我們能夠評估視覺一緻性,以及語言一緻性。這些知識還有助于改善語言一緻性分析。
預訓練的CNN可為proposals的種類生成一個機率分布。這個分布作為補充知識可以用來将與query不相關的proposals去掉或者将權重降低。用于重建的features可以用detection機率來更改。一個對語言一緻性的類比可以用來将visual proposal轉換成單詞,并重建image patches。
相反,我們建議從query和visual feature中預測出object location來達到phrase grounding的目的。這個過程需要external knowledge來focus on可能的related proposals for perdition。
在實驗上,建構了一個Knowledge Aided Consistency Network(KAC Net),它包含兩個分支:visual consistency brach和language consistency branch。這兩個分支由一個共享的多模态子空間連接配接,該子空間使用了attention model。
為了利用來自視覺特征提取器的complementary knowledge,我們提出了一個knowledge based pooling(KBP)gate來focus on query-related proposals來做視覺和語言上的重建。
評估KAC Net:在資料集 Flickr30K Entities(30K 圖像和170K query phrases)和Referit Game(19K 圖像和130K query phrases)上。在accuracy上分别取得了9%和5%的進步。
貢獻:1.利用complementary knowledge将不相關的proposals過濾掉,提供了直接指導 2.提出視覺一緻性來提高grounding性能。