
以下内容編譯自Referring Relationships論文:
圖像不僅僅是對象集合,每個圖像都代表一個互相關聯的關系網絡。實體之間的關系具有語義意義,并能幫助觀察者區分實體的執行個體。例如,在一張足球比賽的圖像中,可能有多人在場,但每個人都參與着不同的關系:一個是踢球,另一個是守門。
在本文中,我們制定了利用這些“指稱關系”來消除同一類别實體之間的歧義的任務。我們引入了一種疊代模型,它将指稱關系中的兩個實體進行定位,并互相制約。我們通過模組化謂語來建立關系中實體之間的循環條件,這些謂語将實體連接配接起來,将注意力從一個實體轉移到另一個實體。
我們證明了我們的模型不僅好于在三種資料集上實作的現有方法--- CLEVR,VRD 和 Visual Genome ---而且它還可以産生視覺上有意義的謂語變換,可以作為可解釋神經網絡的一個執行個體。最後,我們展示了将謂語模組化為注意力轉換,我們甚至可以在沒有其類别的情況下進行定位實體,進而使模型找到完全看不見的類别。
指稱關系任務
指稱表達可以幫助我們在日常交流中識别和定位實體。比如,我們能夠指出“踢球人”來區分“守門員”(圖 1)。在這些例子中,我們都可以根據他們與其它實體的關系來區分這兩人。 當一個人射門時,另一個人守門。 最終的目标是建立計算模型,以識别其他人所指的實體。
圖1:指稱關系通過使用實體間的相對關系來消除同一類别執行個體之間的歧義。給出這種關系之後,這項任務需要我們的模型通過了解謂語來正确識别圖像中的踢球人。
指稱關系任務的結構化關系輸入允許我們評估如何明确地識别圖像中同一類别的實體。我們在包含視覺關系的三個視覺資料集上評估我們的模型 2:CLEVR,VRD 和 Visual Genome 。這些資料集中 33%、60.3% 和 61% 的關系是指不明确的實體,也即指具有相同類别的多個執行個體的實體。我們擴充了模型,使用場景圖的關系來執行注意力掃視。最後,我們證明,在沒有主體或客體的情況下,我們的模型仍然可以在實體之間消除歧義,同時也可以定位以前從未見過的新類别。
指稱關系模型
我們的目标是通過對指稱關系的實體進行定位,進而使用輸入的指稱關系來消除圖像中的實體歧義。 形式上而言,輸入是具有指稱關系的圖像 I,R = <S - P - O>,它們分别是主體,謂語和對象類别。 預計這個模型可以定位主體和客體。
模型設計
我們設計了一個疊代模型,學習如何在視覺關系中使用謂語來操作注意力轉移,這受到了心理學中移動聚光理論的啟發。給出足球的初始估值後,它會學習踢球的人必須在哪裡。同樣,如果對人進行估值,它将會學習确定球的位置。通過在這些估值之間進行疊代,我們的模型能夠專注于正确執行個體,并排除其它執行個體。
圖 2:指稱關系的推理首先要提取圖像特征,這是用于生成主體和客體的基礎。接下來,這些估值可以用來執行轉換注意力,注意力使用了從主體到我們所期望客體位置的謂語。在對客體的新估值進行細化的同時,我們通過關注轉換區域來修改圖像特征。同時,我們研究了從初始客體到主體的反向移位。通過兩個預測移位子產品疊代地在主體和對象之間傳遞消息,可以最終定位這兩個實體。
實驗
我們在跨三個資料集的指稱關系中評估模型性能來進行實驗操作,其中每個資料集提供了一組獨特的特征來補充我們的實驗。 接下來,我們評估在輸入指稱關系中缺少其中一個實體的情況下如何改進模型。 最後,通過展示模型如何子產品化并用于場景圖注意力掃視來結束實驗。
以下是我們在 CLEVR、VRD 和 Visual Genome 上的評估結果。 我們分别标出了對主題和對象定位的 Mean IoU 和 KL 分歧:
在三種測試條件下缺少實體的指稱關系結果:
圖 3:(a)相對于圖像中的主體,當使用<subject - left - of object>關系來查找客體時,左邊的謂語會把注意力轉移到右邊。相反,當使用物體找到主體時,左側的逆謂語會将注意力轉移到左側。在輔助材料中,我們可視化了 70 個 VRD、6 個 CLEVR 和 70 個 Visual Genome 的謂語和逆謂語轉化(b)我們還看到,在檢視用于了解它們的資料集時,這些轉換是直覺的。
圖 4:這是 CLEVR 和 Visual Genome 資料集的注意力轉移如何跨越多次疊代的示例。在第一次疊代時,模型僅接收試圖找到以及嘗試定位這些類别中所有執行個體的實體資訊。在後面的疊代中,我們看到謂語轉換注意力,這可以讓我們的模型消除相同類别的不同執行個體之間的歧義。
圖 5:我們可以将我們的模型分解成其注意力和轉換子產品,并将它們堆疊起來作為場景圖的節點。 在這裡,我們示範了如何使用模型從一個節點(手機)開始,并使用指稱關系來通過場景圖連接配接節點,并在短語<拿電話的人旁邊有人身穿夾克>中定位實體。 第二個例子是關于<在戴帽子的人的右邊有個人一張桌子前>中的實體。
結論
我們介紹了指稱關系的目的,其中我們的模型利用視覺關系來消除了同一類别執行個體之間的歧義。我們的模型學習去疊代地使用謂語作為一種關系裡,兩個實體之間的注意力轉換。它通過分别對主體和客體的先前位置進行預測,來更新其關于主體和客體的位置資訊。我們展示了 CLEVR,VRD 和 Visual Genome 資料集的改進,證明了我們的模型産生了可解釋的謂語轉換,使我們能夠驗證模型實際上是在學習轉移注意力。通過依賴部分指稱關系以及如何将其擴充到場景圖上執行注意力掃視,我們甚至展示了如何使用我們的模型來定位完全看不見的類别。指稱關系的改進可能為視覺算法探測未見的實體鋪路,并學習如何增強對視覺世界的了解。
原文釋出時間為:2018-04-9
本文作者:費棋