主流的基于深度學習的物體檢測方法是對不同類别進行單獨的檢測,而本文提出了關系網絡的方法,通過對不同物體間的關系進行模組化,來優化物體檢測任務。
主流的物體檢測任務流程

物體檢測任務可以分成:1. 圖檔特征生成 2.區域特征提取 3.執行個體識别 4. 多餘框的去除 四個部分,而本文提出的Relation Module能夠優化後面兩個流程,即執行個體識别和多餘框去除。
Object Relation Module的數學模型
本文的關系模型的思路是來源于NLP領域的論文《Attention is all
you need》,是以關系模型的建立有很多相似之處。
這張圖檔就是Relation Module的整體結構,可以看到輸入是 f A f_A fA和 f G f_G fG.
其中 f A f_A fA是Appearance Feature,物體的表觀特征,是由全連接配接層輸出的1024維的feature map, f G f_G fG是物體的幾何特征,指的是bounding box的四個參數(x,y,w,h),而 f G m f_G^m fGm和 f G n f_G^n fGn是指第m個bounding box和第n個bounding box。
子產品的輸出是 f R n f_R^n fRn是指第n個物體的關系特征Relation Feature。 f R n f_R^n fRn的計算公式為:
虛線框中的 W V W_V WV, W Q W_Q WQ和 W K W_K WK都是線性變換矩陣,對表觀特征 f A n f_A^n fAn進行線性變換的目的是為了将原有的特征映射到線性子空間來适應位置平移和大小變化。
w m n w^{mn} wmn是關系權重,用來決定第m個物體的表觀特征将對第n個物體的關系特征有多大的影響。其計算公式為:
公式中的 w G w_G wG和 w A w_A wA表示來源于表觀特征和幾何特征的權重。
w A w_A wA的計算公式為:
通過第m個物體和第n個物體的點積來表征他們的關系相近程度。 d k d_k dk是物體的個數,如果物體個數很多,那麼他們之間的互相關系(點積)的值就會很大,經過softmax之後就容易梯度彌散,是以 d k \sqrt{d_k} dk
是為了縮放點積的結果,将其限制在合理的範圍内。
對于 w G w_G wG的計算,就較為複雜了,現抛出公式:
ε G \varepsilon_G εG是一個函數,表征兩個物體的位置關系,公式是:
以上是對Relation Module的輸入輸出以及中間環節的數學模型進行了介紹,那麼Relation Module的輸出 f R n f_R^n fRn将如何整合到網絡中?
如下圖所示,多個Relation Module輸出的關系特征級聯之後與原本的表觀特征進行融合。
之是以使用多個Relation Module并行處理,也是來自于《Attention is all
you need》的Multi-head思路,通過不同的線性變換來獲得特征的平移縮放不變性。
上面的架構結構的數學表達為:
我們可以知道,通過整個結構,模型的輸入輸出的尺寸沒有變化,是以可以嵌入到現有的物體檢測架構中,進而可以優化全連接配接層的輸出。
Relation Module對物體識别的優化
上文說到Relation Module可以對物體檢測中的物體識别和多餘框去除兩個步驟進行優化,并且由于其輸入輸出具有相同的尺寸,是以串接到全連接配接層中來優化全連接配接的輸出結果,即優化了物體識别的效果。
主流的物體識别方法是對proposal的特征進行全連接配接層的分類,然後通過線性層得到score和bounding box的參數。如下圖所示:
而本文是對這種方法進行改進,通過在兩個全連接配接層後面串接若幹個RM(Relation Module)來優化結果。
Relation Module對多餘框去除的優化
多餘框去除的過程可以看成是對各個bounding box進行二分類的判别,即判定為保留或者去除,這個二分類任務是通過一個網絡來實作的,即duplicate removal network。其結構如下:
其中 s 0 s_0 s0即為對proposal分類的score,而 s 1 s_1 s1是二分類判别的結果,如果是多餘的框則 s 1 s_1 s1=0,如果是要保留的框,則 s 1 s_1 s1=1。輸出的socre是 s 0 s_0 s0和 s 1 s_1 s1的乘積。是以好的檢測結果(正确類别并且bounding box最接近ground truth的結果)的score也會更高。
至于内部的計算過程,我們根據核心的Relation Module的輸入輸出分别介紹。
輸入
我們已經知道Relation Module的輸入是表觀特征 f A f_A fA和幾何特征 f G f_G fG,其中 f A f_A fA是由分類score及其1024維的表觀特征feature map融合得到的。
而 f G f_G fG就是目前的待分類的bounding box的幾何資訊。
輸出
輸出即為關系特征經過線性層和Sigmoid層得到分類結果。
值得注意的是框圖中有一個rank embed,是将score的具體數值轉化成了按照score大小的排序,因為作者通過實驗發現使用score的排序作為輸入比直接使用score數值效果要好。