天天看點

CVPR論文 | 所見所想所找:基于生成模型的跨模态檢索

CVPR論文 | 所見所想所找:基于生成模型的跨模态檢索

〔小叽導讀〕:視覺-文本跨模态檢索已經成為計算機視覺和自然語言處理領域結合的一個熱點。對于跨模态檢索而言,如何學到合适的特征表達非常關鍵。本文提出了一種基于生成模型的跨模态檢索方法,該方法可以學習跨模态資料的高層次特征相似性,以及目标模态上的局部相似性。本文通過大量的實驗證明了所提出的方法可以準确地比對圖像和文本,并且在MSCOCO以及Flickr30K的資料集上都取得了state-of-the-art的效果。

引言

我們已經進入到了一個大資料時代,不同模态的資料例如文本、圖像等正在以爆炸性的速度增長。這些異質的模态資料也給使用者的搜尋帶來了挑戰。

對于文本-視覺的跨模态表示,常見的方法就是首先每個模态的資料編碼成各自模态的特征表示,再映射到一個共同空間内。通過ranking loss來對其進行優化,使得相似的圖像-文本對映射出的特征向量之間的距離小于不相似的圖像-文本對之間的距離。

盡管這種方法學習出的特征可以很好地描述多模态資料高層語義,但是沒有充分地挖掘圖像的局部相似度和句子的句子層次相似度。例如文字檢索圖檔時,我們會更多地關注圖檔的顔色、紋理以及布局等細節資訊。而僅僅進行高層次特征比對,顯然無法考慮到局部的相似度。

本文的想法來源于對人的思維的思考。對于人來說,給定一段文字描述去檢索比對的圖像,一名訓練有素畫家可以比普通人找到更比對的圖像,那是因為畫家知道預期的圖檔是什麼樣;類似,給一幅圖檔去檢索比對的文字描述,一名作家也往往會給出比普通人更好的描述。我們把這種對檢索目标有預期的過程稱為——“Imagine”或者“腦補”。是以,我們提出了一種基于生成模型的跨模态特征學習架構(generative cross-modal feature learning framework,GXN),下圖展示了本文的思想:

CVPR論文 | 所見所想所找:基于生成模型的跨模态檢索

我們把原來的Look和Match變成了三個步驟:Look,Imagine和Match,也稱為”所看所想所找”。Look叫“所看”,“看”是了解,實際就是提取特征。Imagine叫“所想”,根據“所看”去“腦補”預期的比對結果, 也就是從得到的局部特征去生成目标模态的資料;Match也叫“所找”,根據生成/腦補的結果進行局部層次(sentence-level/pixel-level)比對和高層次語義特征比對。

方法

GXN包括三個子產品:多模态特征表示(上部區域);圖像 -文本生成特征學習(藍色路徑)和文本 - 圖像生成對抗特征學習(綠色路徑)。

CVPR論文 | 所見所想所找:基于生成模型的跨模态檢索

第一個部分(上部區域)和基本的跨模态特征表示做法類似,将不同模态的資料映射到共同空間。這裡包括一個圖像編碼器和兩個句子編碼器和。之是以分開2個句子編碼器,是便于學到不同層次的特征。其中,是高層語義特征而作為局部層次的特征。這裡的局部層次特征是通過生成模型學習得到的。

第二部分(藍色路徑)從底層視覺特征生成一個文本描述。包括一個圖像編碼器和一個句子解碼器。這裡計算損失時我們結合了增強學習的思想,通過獎勵的方式來確定生成句子和真實句子之間具有最大的相似度。

第三部分(綠色路徑)通過使用一個從文本特征中生成一幅圖像,包括一個生成器和一個判别器。判别器用來區分基于文本生成的圖像與真實圖像。

最終,我們通過兩路的跨模态特征生成學習學習到更好的跨模态特征表示。在測試時,我們隻需要計算和之間的相似度來進行跨模态檢索。

實驗

本文提出的方法在MSCOCO資料集上和目前前沿的方法進行比較,并取得了state-of-the-art的結果。

CVPR論文 | 所見所想所找:基于生成模型的跨模态檢索

總結

本文創新性地将圖像-文本生成模型和文本-圖像生成模型引入到傳統的跨模态表示中,使其不僅能學習到多模态資料的高層的抽象表示,還能學習到底層的表示。顯著超越state-of-the-art方法的表現證明了該方法的有效性。

原文釋出時間為:2018-07-19

本文作者:匿名

本文來自雲栖社群合作夥伴“

阿裡巴巴機器智能

”,了解相關資訊可以關注“

”。

繼續閱讀