天天看點

經典回顧 | 一種跨模态多媒體檢索的新方法

2016年經典回顧 | 一種跨模态多媒體檢索的新方法

最近閑來無事,為大家整理了深度學習、多模态、計算機視覺相關的必讀論文和視訊教程,已開源到Github上,歡迎大家使用:​​https://github.com/xmu-xiaoma666/FightingCV-Course​​。項目會長期保持更新,也歡迎大家聯系筆者,加入更多教程,促進大家學習。項目線上筆記見:​​https://www.wolai.com/2ZvDcyvLF2FrHjnujeJzmK​​,更新會更加及時。

【寫在前面】

多媒體文檔的文本和圖像元件的聯合模組化問題被廣泛研究。文本元件表示為來自隐藏主題模型的樣本,通過潛在 Dirichlet 配置設定學習,圖像表示為視覺包 (SIFT) 特征。目前研究了兩個假設:1)顯式模組化兩個元件之間的相關性有好處,2)這種模組化在具有更高抽象級别的特征空間中更有效。兩個元件之間的相關性是通過典型相關分析(CCA)來學習的。抽象是通過在更一般的語義級别上表示文本和圖像來實作的。在跨模态文檔檢索任務的背景下研究了這兩個假設。這包括檢索與查詢圖像最比對的文本,或檢索與查詢文本最比對的圖像。結果表明,考慮跨模态相關性和語義抽象都可以提高檢索準确性。跨模态模型也被證明在單模态檢索任務上優于最先進的圖像檢索系統

1. 論文和代碼位址

經典回顧 | 一種跨模态多媒體檢索的新方法

A new approach to cross-modal multimedia retrieval

論文位址:​​https://dl.acm.org/doi/10.1145/1873951.1873987​​

代碼位址:​​https://github.com/emanuetre/crossmodal​​

2. Motivation

在過去的十年中,網絡上的多媒體内容出現了大規模爆炸式增長。這次多媒體内容爆炸沒有使得多媒體内容模組化技術的複雜性也相應提高。今天,搜尋多媒體存儲庫的流行工具仍然是基于文本的,例如搜尋引擎,例如 Google 或 Bing。為了解決這個問題,學術界緻力于設計能夠解釋多種内容模态的模型。在計算機視覺中,已經投入了大量精力來解決圖像标注問題。多媒體社群已經開始了許多大規模的研究和評估工作,例如 TRECVID和 imageCLEF,涉及圖像或視訊資料以及注釋、隐藏式字幕資訊或語音識别記錄。這些文獻中提出了許多技術來自動增強帶有标題或标簽的圖像,并檢索和分類使用來自這些模态的資訊增強的圖像。

在這些領域取得進一步進展的一個重要要求是為多種内容模态開發複雜的聯合模型。尤其重要的是開發支援對多模态内容進行推理的模型。這些模型不僅将圖像随附的文本視為圖像分類的關鍵字來源,而且還利用将文本正文與許多圖像或視訊片段配對的文檔的完整結構。此類文檔(包括網頁、報紙文章和技術文章)的可用性随着基于網際網路的資訊的爆炸式增長而蓬勃發展。在這項工作中,作者考慮了這些多媒體模型的設計。專注于包含文本和圖像的文檔,盡管許多想法将适用于其他模态。作者從有關文本和圖像分析的大量文獻開始,包括将文檔表示為特征包(文本的單詞直方圖,圖像的 SIFT 直方圖),以及主題模型的使用(例如潛在 Dirichlet 配置設定)從文檔語料庫中提取低維泛化。作者基于這些表示來設計圖像和文本的聯合模型。

該模型的性能是在跨模态檢索問題上評估的,該問題包括兩個任務:1)檢索文本文檔以響應查詢圖像,以及 2)檢索圖像以響應查詢文本。這些任務是許多實際應用的核心,例如在網絡上找到最能說明給定文本的圖檔(例如,說明故事書的頁面),找到與給定圖檔最比對的文本(例如,一組關于給定地标的假期帳戶),或搜尋文本和圖像的組合。在本研究中集中讨論模型設計問題。作者使用檢索任務的性能作為模型品質的間接衡量标準,直覺是最好的模型應該産生最高的檢索精度。

關于模型設計,作者研究了兩個假設。首先是圖像和文本之間相關性的顯式模組化很重要。作者提出了使用典型相關分析 (CCA) 明确解釋跨模态相關性的模型,并将它們的性能與兩種模态獨立模組化的模型進行比較。第二個是抽象可以發揮有用的作用——這裡定義為跨越來越普遍的語義層的分層推理。各種結果表明,這種表示可以提高多媒體任務的性能,例如使用分層主題模型進行文本聚類或使用分層語義表示進行圖像檢索。作者在這裡考慮的檢索問題适用于這種抽象層次結構的設計:例如,将特征分組到文檔中,這些文檔本身又分組到類或主題中,進而形成語料庫。通過将圖像和文檔模組化為關于一組預定義文檔類的後驗機率向量,通過邏輯回歸計算,為視覺和文本提出了抽象表示。

作者研究了圖像和文本表示的各種組合的檢索性能,這些組合涵蓋了兩個指導假設的所有可能性。本文的結果表明,抽象和跨模态相關模組化都有好處。最佳結果是通過将圖像和文本的語義抽象與聯合空間中互相關的顯式模組化相結合的模型獲得的。作者還通過使用提出的聯合模型将最先進的圖像檢索系統與解釋每個圖像附帶的文本的圖像檢索系統的性能進行比較來證明聯合文本和圖像模組化的好處。結果表明,後者具有顯着更高的檢索精度。

3. 方法

在本節中,作者提出了一種新的跨模态檢索方法。盡管基本思想适用于任何内容形式的組合,但作者将讨論限制在包含圖像和文本的文檔上。目标是支援真正的跨模式查詢:檢索文本文章以響應查詢圖像,反之亦然。

3.1 The problem

資料庫包含圖像和文本元件的文檔。在實踐中,這些元件可以是多種多樣的:從單個文本由一個或多個圖像補充的文檔(例如,一篇報紙文章)到包含多個圖檔和文本(例如,維基百科)。為簡單起見,作者考慮每個文檔由圖像及其随附文本組成的情況,即 。圖像和文本分别表示為特征空間和上的向量。這樣,每個文檔在文本和圖像空間中的點之間建立了一對一的映射關系。給定一個文本(圖像)查詢,跨模态檢索的目标是傳回圖像(文本)空間中最接近的比對項。

3.2 Matching images and text

每當圖像和文本空間具有自然對應關系時,跨模态檢索就歸結為經典檢索問題。表示兩個空間之間的可逆映射。給定中的查詢,找到與在 中最近的鄰居就足夠了。類似地,給定一個中的查詢,它可以用來找到的最近鄰。在這種情況下,跨模态檢索系統的設計簡化為用于确定最近鄰的有效相似度函數的設計。

由于圖像和文本傾向于采用不同的表示形式,是以通常在和之間沒有自然對應關系。在這種情況下,映射 M 必須從示例中學習。作者在這項工作中追求的一種可能性是将這兩個表示映射到兩個具有自然對應關系的中間空間和中。設和是從每個圖像和文本空間到兩個同構空間 和的可逆映射,是以存在可逆映射:

給定中的查詢,跨模态檢索操作簡化為在中找到的最近鄰。類似地,給定一個中的查詢,目标是找到中的最近鄰。

在這種方法下,跨模态檢索系統設計的主要問題是學習中間空間和 。在這項工作中,作者考慮了兩種主要程式組合産生的三種可能性。在第一種情況下,兩個線性投影學習将分别映射到相關的 d 維子空間 和 上。:

這保持了表示的抽象級别。在第二種情況下,一對非線性變換用于将圖像和文本空間映射到一對語義空間 使得。

3.3 Correlation matching

學習需要一些關于文本和圖像空間中的表示之間的最佳對應關系的概念。一種可能性是依賴子空間學習。這是一個學習架構,是文本和視覺文獻中一些非常流行的降維方法的基礎,例如潛在語義索引或主成分分析 (PCA)。從計算的角度來看,子空間學習方法通​​常是有效的,并且産生易于概念化、實作和部署的線性變換。在這種情況下,圖像和文本子空間之間對應關系的自然度量是它們的相關性。這表明典型相關分析(CCA) 作為跨模态模組化的自然子空間表示。

典型相關分析(CCA)是一種類似于PCA的資料分析和降維方法。雖然 PCA 隻處理一個資料空間,但 CCA 是一種跨兩個(或多個)空間聯合降維的技術,提供相同資料的異構表示。假設是這兩個空間中的表示包含一些聯合資訊,這些資訊反映在它們之間的相關性中。 CCA 學習 d 維子空間和最大化兩種模态之間的相關性。

與 PCA 中的主成分類似,CCA 學習規範成分的基礎,即資料最大相關的方向和 ,即:

其中和表示圖像和文本,而表示它們之間的互協方差矩陣。優化可以解決為廣義特征值問題 (GEV):

廣義特征向量确定一組不相關的規範分量,相應的廣義特征值訓示解釋的相關性。 GEV 可以像正常特征值問題一樣有效地解決。

經典回顧 | 一種跨模态多媒體檢索的新方法

前 d 個規範分量和定義了用于在子空間和上分别投影和的基礎。這兩個投影之間的自然可逆映射來自最大交叉模态相關性的 d 維基之間的對應關系,如。對于跨模态檢索,每個文本都映射到它的投影到,每個圖像都映射到它的投影到。這導緻了兩種模态的緊湊、有效的表示。由于向量和是兩個等距的 d 維子空間中的坐标,是以可以認為它們屬于單個空間 U,通過重疊和獲得。上圖展示了示意圖,其中 CCA 為跨模态檢索定義了一個公共子空間 (U)。

給定投影的圖像查詢,與它最比對的文本 需要最小化:

對于在 d 維向量空間中的一些合适的距離 d(·,·) 度量。類似地,給定一個帶有投影的查詢文本,最接近的圖像最小化了。

3.4 Semantic matching

子空間學習的一種替代方法是在更高的抽象層次上表示文檔,以便文本和圖像空間之間存在自然的對應關系。這是通過使用詞彙表的語義概念。這些是廣泛的文檔類别,例如“曆史”或“生物學”,單個文檔被分組到其中。然後分别借助文本和圖像的兩個分類器來實作兩個映射和。 将文本映射到後驗機率向量 相對于 V 中的每個類。這些後驗向量的空間 被稱為文本的語義空間,機率 是語義文本特征。類似地,将圖像 I 映射到語義圖像特征向量在語義圖像空間 $ S^I $中。

計算後驗機率分布的一種可能性是通過多類邏輯回歸。這會産生一個具有機率解釋的線性分類器。邏輯回歸通過将資料拟合到邏輯函數來計算 j 類的後驗機率:

其中 是歸一化常數,V 是類标簽,X 是輸入空間中的特征向量,,是類 j 的參數向量。通過使 X 分别成為圖像和文本表示 和 來學習文本和圖像模态的多類邏輯回歸。

語義模組化對于跨模态檢索有兩個優點。首先,它提供了更高層次的抽象。雖然 和 中的标準特征是無監督學習的結果,并且通常沒有明顯的解釋(例如圖像特征往往是邊緣、邊緣方向或頻率基),但 和中的特征是語義概念機率(例如圖像屬于“曆史”或“生物學”文檔類的機率)。以前的工作表明,這種增加的抽象可以為圖像檢索等任務帶來更好的泛化。其次,語義空間 和是同構的:在這兩種情況下,圖像和文本都表示為關于相同文檔類的後驗機率向量。是以,空間可以被認為是相同的,即 。

給定一個查詢圖像,由機率向量 表示,檢索包括找到由機率向量發送的文本 ,它最小化:

對于機率分布之間的距離 d 的某種合适的度量。作者将這種類型的檢索稱為語義比對

3.5 Semantic correlation matching

也可以結合子空間和語義模組化。在這種情況下,邏輯回歸在兩個最大相關子空間内執行。CCA 模組化首先應用于學習最大相關子空間和 。然後在這些子空間中的每一個中學習邏輯回歸量和 以分别生成語義空間和 。檢索最終基于 圖文距離 ,基于投影到 和 。我們将這種類型的檢索稱為語義相關比對。

3.6 Text and Image Representation

在這項工作中,文本在上的表示源自潛在狄利克雷配置設定 (LDA) 模型。 LDA 是文本語料庫的生成模型,其中文本的語義内容或“要點”被概括為主題的混合。更準确地說,文本被模組化為 K 個主題的多項分布,每個主題又被模組化為單詞的多項分布。文本 中的每個單詞是通過首先從特定于文本的主題分布中采樣一個主題 z,然後從該主題的多項式中采樣一個單詞來生成的。在 中,文本文檔由它們的主題配置設定機率分布表示。

在 中,圖像表示基于流行的尺度不變特征變換(SIFT)。首先從訓練集中的每個圖像中提取一袋 SIFT 描述符(使用 LEAR 的 SIFT 實作)。然後使用 k-means 聚類算法學習視覺詞的代碼本或字典。從每個圖像中提取的 SIFT 描述符使用此碼本進行矢量量化,并且圖像由由此量化産生的 SIFT 描述符直方圖表示。

4.實驗

經典回顧 | 一種跨模态多媒體檢索的新方法

維基百科資料集的總結。

經典回顧 | 一種跨模态多媒體檢索的新方法

每個類别的 MAP 性能。

經典回顧 | 一種跨模态多媒體檢索的新方法

提出的跨模式檢索方法的分類。

經典回顧 | 一種跨模态多媒體檢索的新方法

不同的距離度量(MAP 分數)。

經典回顧 | 一種跨模态多媒體檢索的新方法

檢索性能(MAP 分數)。

經典回顧 | 一種跨模态多媒體檢索的新方法

文本查詢的兩個示例和 SCM 檢索的top圖像。

經典回顧 | 一種跨模态多媒體檢索的新方法

精确召回曲線。

經典回顧 | 一種跨模态多媒體檢索的新方法

通過将查詢分類到最高 MAP 類計算的類别級混淆矩陣。

經典回顧 | 一種跨模态多媒體檢索的新方法

基于内容的圖像檢索。

經典回顧 | 一種跨模态多媒體檢索的新方法

圖像查詢的一些示例(最左列上的架構圖像是查詢對象)和相應的頂部檢索圖像(按文本相似度排名)。

【項目推薦】