天天看點

場景圖生成論文閱讀筆記 之 AVR:Attention based Salient Visual Relationship Detection

AVR:Attention based Salient Visual Relationship Detection

arXiv2020

我是目錄👇

    • 針對問題
    • 算法思想
    • 算法内容
      • Predicate Prediction Module
      • Attention Module
      • 利用資料集先驗知識部分

針對問題

以前的工作都對一幅圖像中所有可見的關系都一視同仁,而一些不重要的關系會對結果在一定程度上造成影響,是以需要篩選出更顯著(salient)的關系對。

算法思想

結合視覺特征、語義資訊(類别标簽)、空間資訊(位置)預測關系并計算各個關系的顯著性(或者說重要性)程度。然後該重要程度會用于計算損失函數,越重要的關系損失越小,反之越大。算法中還進一步提取資料集的先驗知識,并與預測結果結合作為最終結果。

算法内容

場景圖生成任務可以視為由圖像計算得到主語目标S, 賓語O, 以及對應的類别标簽Cs, Co, 還有主賓之間的關系P

文中提出,預測結果的條件機率可以表示為如下的形式:

場景圖生成論文閱讀筆記 之 AVR:Attention based Salient Visual Relationship Detection

右側後三項分别表示主語、賓語以及關系的類别置信度,而右式的第一項作者認為是對目标對(Os, Oo)的關注程度的機率

這種了解真的對嗎…

右式第2、3項與目标檢測類似可以直接由faster R-CNN得到,然後剩下的任務就是要計算 右式的第一項和最後一項

論文提出了兩個子產品Attention Module 和 predicate prediction Module分别計算上述兩個機率值

場景圖生成論文閱讀筆記 之 AVR:Attention based Salient Visual Relationship Detection
場景圖生成論文閱讀筆記 之 AVR:Attention based Salient Visual Relationship Detection

Predicate Prediction Module

本子產品用來求上面說到的最後一項,即預測主賓的謂詞,這一部分與其他論文的網絡結構比較相似,都是結合主語、賓語、謂詞的視覺特征+bbox位置資訊+類别的詞向量編碼預測關系謂詞,這一子產品使用交叉熵損失,形式如下:

場景圖生成論文閱讀筆記 之 AVR:Attention based Salient Visual Relationship Detection

Attention Module

這一子產品為本論文的主要工作之一,因為前文提到想要讓網絡更偏重于“重要的”關系對,是以就需要計算每個關系對的顯著性名額e(s,o),經過softmax就得到了

場景圖生成論文閱讀筆記 之 AVR:Attention based Salient Visual Relationship Detection

(兩者其實是一樣的)

網絡結構如Figure4的b圖所示,對于每一對目标,将其主語、賓語、謂詞的視覺特征+整個圖檔的特征圖結合在一起計算顯著性名額e(s,o)(這裡整幅圖的特征圖可以視為加入了全局上下文資訊)

計算出顯著性名額後需要與真實标簽對比,即損失函數,這裡作者将評判重要程度視為一個二分類問題:重要or不重要, 對應的損失函數如下:

場景圖生成論文閱讀筆記 之 AVR:Attention based Salient Visual Relationship Detection

這裡L(s,o)為真實标簽:如果這一目标對在GT中存在,就為1,即重要目标對,否則為不重要目标對。

吐槽一下,論文開頭說的是對關系的重要程度進行衡量,但是這裡明顯是計算目标對的重要程度。。。這兩者還是有差別的。衡量關系的重要程度會讓人了解為對每一個預測出的關系謂詞計算顯著性名額

将上述兩部分的損失相加就是最終的損失函數。

利用資料集先驗知識部分

作者還結合了資料集的先驗知識來提升檢測準确率。

場景圖生成論文閱讀筆記 之 AVR:Attention based Salient Visual Relationship Detection

将資料集GT中的每一類關系謂詞都視一個節點,每一類<主-賓>的目标對也視為一個節點。

目标對節點 < s-o > 與謂詞節點p 之間的邊代表了這一類< s-o >之間的關系為p 在資料集中出現的次數。另外在目标對節點之間還增加了邊,用來衡量目标對的相似程度(有點motif的思想)

使用時采用了随機漫步算法(random walker)來計算從謂詞節點p走到目标對< s-o >的機率,在計算的時候可以化為矩陣相乘的形式來計算,解釋起來有點麻煩,直接貼論文原文:

場景圖生成論文閱讀筆記 之 AVR:Attention based Salient Visual Relationship Detection

在得到關系對 < s-p-o > 的先驗機率後,将其與之前預測的結果相乘得到最終結果:

場景圖生成論文閱讀筆記 之 AVR:Attention based Salient Visual Relationship Detection
這種感覺會加劇長尾效應?尾部類的機率本身就小,再乘以一個更小的先驗會更小…
這種方式感覺隻是引入了目标對之間的關系資訊,有點類似于顯式的motifs思想

實驗結果就不放了,作者分别在VRD、VG-VtransE、VG-MSDN資料集上做了實驗,并沒有展示在VG150資料集上的結果,和一些關鍵工作(例如VCTree, motifsNet)無法對比,(個人感覺不會太好。。。),就當隻是學習一下思想吧

繼續閱讀