天天看點

2019:Answer Them All! Toward Universal Visual Question Answering Models摘要一、介紹二、相關工作三、RAMEN VQA模型四、VQA模型評估五、實驗和結果 六、讨論:一個模型可以統治他們的全部嗎七、結論

摘要

        視覺問題回答(VQA)研究分為兩個陣營:第一個關注需要自然圖像了解的VQA資料集,第二個關注測試推理的合成資料集。一個好的VQA算法應該同時能夠實作,但隻有少數VQA算法用這種方法進行測試。我們比較了在覆寫這兩個領域的8個VQA資料集上的五種最先進的VQA算法,為了使比較公平,所有的模型都盡可能地标準化了,例如,它們使用相同的視覺特征、答案詞彙等。我們發現這些方法并不能推廣到這兩個領域。為了解決這個問題,我們提出了一種新的VQA算法,它可以在這兩個領域上競争或超過最先進的算法。

一、介紹

        正确回答這些問題需要很多能力,包括對象定位、屬性檢測、行為分類、場景了解、推理、計數以及更多。很多表現好的算法僅僅利用了偏見和表面相關性,之後的自然圖像資料集試圖解決此問題,VQA v2通過對每個問題加入互補圖像和不同的答案減少了一定的語言偏見;TDIUC分析了多種問題和很少答案的泛化;CVQA測試了概念組合性;VQA CP v2測試了當訓練和測試分布不同時的表現。

        雖然之後的自然圖像資料集減少了偏見,但這裡的絕大多數問題沒有嚴格測試推理技能。建立了幾個合成資料集作為一種補救措施,它們包含有着挑戰性問題,即能測試多步推理、計數和邏輯推理的簡單視覺場景。為正确評估算法的魯棒性,這些資料集的建立者認為算法應該在兩個領域内測試。

        然而,幾乎所有最近的論文隻報告了在一種領域上的表現,CLEVR上的最佳算法沒有在自然圖像VQA資料集上測試,反之亦然。我們在八個資料集上測試了五種最先進VQA系統,發現大多方法并沒有在兩個領域内表現好(圖1)。我們提出一種新模型,在所有的評估資料集上競争最先進的模型。

2019:Answer Them All! Toward Universal Visual Question Answering Models摘要一、介紹二、相關工作三、RAMEN VQA模型四、VQA模型評估五、實驗和結果 六、讨論:一個模型可以統治他們的全部嗎七、結論

        主要貢獻:(1)在8個資料集上對五種最先進算法嚴格比較,發現許多算法并不能跨領域進行推廣。(2)VQA算法通常使用不同的視覺特征和答案詞彙,使很難評估性能提高,我們努力标準化跨模型的元件,如使用相同視覺特征比較所有算法,這需要提高合成場景的方法來使用區域建議。(3)大多VQA算法在泛化測試中的表現很差,表明這些方法仍然在利用資料集偏見。(4)我們描述了一種新的算法,在所有資料集上與最先進的方法媲美,總體表現最好。

二、相關工作

        VQA資料集的統計資料如下。

2019:Answer Them All! Toward Universal Visual Question Answering Models摘要一、介紹二、相關工作三、RAMEN VQA模型四、VQA模型評估五、實驗和結果 六、讨論:一個模型可以統治他們的全部嗎七、結論

         VQA v1資料集有多種語言偏見,如一些問題與特定答案嚴重相關,VQAv2存在其它語言偏見,如推理問題與檢測問題相比比較罕見。TDIUC嘗試将問題分為12種類型,有評估問題類型泛化的名額。CVQA重新分割VQAv1,以測試訓練集中未見過的概念組成的泛化,測試了以看不見的方式組合以前看到的概念能力。VQA-CPv2重新組織了VQAv2,每種問題類型的答案分布在訓練和測試中不同。CLEVR是一個合成資料集,包含簡單幾何形狀的視覺場景,旨在測試合成語言和基本的視覺推理,其中的問題通常需要長鍊的複雜推理,其中問題被分為五個任務:查詢屬性、比較屬性、存在、計數和整體比較,所有的問題都通過程式設計生成,是以建立CLEVR-Humans是為提供人類生成的問題,以測試對自由形式問題的泛化。 CLEVR-CoGenT測試了處理看不見的概念組合和記住舊的概念組合的能力,分為CoGenT-A和CoGenT-B,具有互相排斥的形狀+顔色組合,如果在CoGenT-A上訓練的模型在沒有微調的情況下在CoGenT-B上表現良好,它表明了對新組成的泛化,如果在CoGenT-B上進行微調的模型在CoGenT-A上仍然表現良好,這表明它能夠記住舊的概念組合,這些資料集中的問題比CVQA中的大多數問題更為複雜。

三、RAMEN VQA模型

        我們提出了VQA的多模态嵌入網絡的循環聚合模型(RAMEN),它被設計為一個概念上的簡單架構,它可以适應自然場景的複雜性,也能夠回答需要複雜的組合推理的問題,這些問題出現在像CLEVR這樣的合成資料集中。如圖2所示,RAMEN分三個階段處理視覺和問題特征:

2019:Answer Them All! Toward Universal Visual Question Answering Models摘要一、介紹二、相關工作三、RAMEN VQA模型四、VQA模型評估五、實驗和結果 六、讨論:一個模型可以統治他們的全部嗎七、結論

         1.視覺和語言特征的早期融合:視覺和語言特征之間的早期融合和/或使用語言對視覺特征的早期調節已被證明有助于組合推理。受這些方法的啟發,我們提出了通過空間局部視覺特征與問題特征的早期融合。

        2. 通過共享投影來學習雙模态嵌入:連接配接的視覺+問題特征通過共享網絡傳遞,産生空間局部的雙模态嵌入。這一階段可以幫助網絡學習視覺和文本特征之間的互相關系。

         3. 學習到的雙模态嵌入的循環聚合:我們使用雙向門控循環單元bi-GRU)聚合整個場景的雙模态嵌入,以捕獲雙模态嵌入之間的互相作用。最後的向前和向後狀态基本上需要保留回答這個問題所需的所有資訊。

        雖然最近最先進的自然圖像VQA模型使用注意力或雙線性池機制,但RAMEN能夠在沒有這些機制的情況下執行比較性的性能。同樣地,與最先進的CLEVR模型相比,RAMEN沒有使用預定義的子產品或推理細胞,但我們的實驗證明了它能夠進行組合推理。

3.1 形式模型定義

        RAMEN的輸入是一個問題嵌入q和一組N區域建議ri,每個ri表示視覺外觀特征和空間位置。RAMEN首先聚合每個建議和問題向量,然後進行批歸一化:

2019:Answer Them All! Toward Universal Visual Question Answering Models摘要一、介紹二、相關工作三、RAMEN VQA模型四、VQA模型評估五、實驗和結果 六、讨論:一個模型可以統治他們的全部嗎七、結論

 然後将所有N個ci向量通過一個函數F(ci),該函數混合特征産生一個雙模态嵌入bi=F(ci),其中F(ci)使用具有殘餘連接配接的多層感覺器(MLP)模組化。

接下來,我們通過将每個雙模态嵌入與原始問題嵌入連接配接起來,并聚合集合,使用:

2019:Answer Them All! Toward Universal Visual Question Answering Models摘要一、介紹二、相關工作三、RAMEN VQA模型四、VQA模型評估五、實驗和結果 六、讨論:一個模型可以統治他們的全部嗎七、結論

 其中,函數A使用bi-GRU模組化,A的輸出由正向和向後GRU的最終狀态的連接配接組成。我們将a稱為RAMEN嵌入,然後發送到一個預測答案的分類層。雖然RAMEN比最近的VQA模型更簡單,但我們證明,與更複雜的模型不同,RAMEN在不同的資料集之間具有競争力。

3.2 實作細節

        輸入表示:問題詞由預訓練過的GloVe向量初始化為300維嵌入,通過GRU處理獲得一個1024維問題嵌入;每個區域建議由視覺特征連接配接空間資訊組成,視覺特征由基于Faster R-CNN的bottom-up結構産生的2048維CNN特征,空間資訊是每個區域或分為16*16的(x,y)坐标網格,然後将其扁平形成一個512維向量。

        模型配置:投影函數F被模組化為一個4層的MLP,具有1024個單元,具有旋轉的非線性激活函數,它在第2、第3和第4層有殘餘連接配接。聚合器A是一個單層具有1024維隐藏狀态的bi-GRU,是以前向和後向狀态的連接配接産生了一個2048維的嵌入,這種嵌入通過一個2048維的全連接配接的交換層進行投影,然後是一個輸出分類層,在資料集中每個可能的答案有一個單元。

四、VQA模型評估

        UpDn:使用bottom-up機制生成來自Faster RCNN的對象建議,top-down機制預測這些建議的注意力分布,使用問題預測圖像區域的注意力權重。

        問題條件圖(QCG):将圖像表示為圖,其中來自bottom-up區域建議的對象級特征作為節點,編碼問題為條件的區域之間的互動作為邊。對于每個節點,QC-Graph選擇了一個邊連接配接最強的節點的鄰域,進而産生一個問題特定的圖結構。該結構由一個更新檔算符進行處理,以執行空間圖卷積。選擇這個模型背後的主要動機是檢驗所提出的圖表示和操作對組合推理的有效性。

        雙線性注意力網絡(BAN):通過考慮所有區域建議(視覺通道)與所有問題單詞(文本通道)之間的互動作用來融合視覺和文本模式。與雙注意機制不同,BAN處理所有通道之間的互相作用。它可以被認為是低秩雙線性池化方法的一種推廣。在VQA v2的test-std分割上實作70.35%的注意力,是已發表的最佳結果之一。

        關系網絡(RN):将每一對區域建議,嵌入它們,并總結所有的N2對嵌入,以産生一個編碼對象之間關系的向量。這種成對的特征聚合機制支援組合推理,然而,RN的計算複雜度随着對象數量的增加而二次增加,使得當對象數量較大時運作成本昂貴。最近有人嘗試通過減少輸入給RN[35,2]的輸入對象的數量來減少成對比較的數量。

        記憶、注意力群組合(MAC)網絡:使用自動學習執行基于注意力的推理的計算單元。與子產品化網絡[7,18,8]需要預定義的子產品來執行預先指定的子產品推理功能不同,MAC直接從資料中學習推理機制,每個MAC單元維護表示推理操作的控制狀态和作為推理操作的結果的記憶體狀态。它有一個類似計算機的架構,具有讀、寫和控制單元。在CLEVR資料集上對MAC進行了評估,并報告了具有挑戰性的計數和數值比較任務的顯著改進。

 4.1 标準化模型

        為對模型公平比較,我們對所有算法所有資料集使用同樣的視覺特征,具體使用具有一個ResNet-101後端的Faster R-CNN模型的區域建議生成器産生的2048維bottom-upCNN特征,将建議數量固定在36個。

        保持相容性:UpDn,QCG和BAN都是針對區域建議進行運作的,對于MAC和RN,我們需要修改輸入層來接受bottom-up特征,而不是卷積特征圖。對于MAC,我們用bottom-up特征的線性投影來代替初始的二維卷積運算,對于RN,我們移除了初始的卷積網絡,并直接連接配接了以問題嵌入為輸入的bottom-up特征。在這些變化後,兩種模型的性能可與使用學習到的卷積特征圖作為輸入的版本相比較,在CLEVR驗證集上,MAC達到98%,RN達到95.97%。

五、實驗和結果

5.1 主要結果

        本節我們示範了目前VQA算法無法推廣到自然和合成的資料集中,并表示RAMEN在所有資料集上表現最好。我們還對所有六種算法的偏見性、組合性和泛化性進行分析。表2提供在所有八個資料集上的六種算法的主要結果。在CLEVR資料集使用簡單準确率,TDIUC上平均類型,在VQA v1、VQA v2、CVQA和VQACPv2上10-choose-3。圖3給出了RAMEN與其它模型相比的一些例子。

2019:Answer Them All! Toward Universal Visual Question Answering Models摘要一、介紹二、相關工作三、RAMEN VQA模型四、VQA模型評估五、實驗和結果 六、讨論:一個模型可以統治他們的全部嗎七、結論
2019:Answer Them All! Toward Universal Visual Question Answering Models摘要一、介紹二、相關工作三、RAMEN VQA模型四、VQA模型評估五、實驗和結果 六、讨論:一個模型可以統治他們的全部嗎七、結論

         跨VQA資料集的泛化:RAMEN在TDIUC和CVQA上效果最高,是VQAv1、VQAv2、VQACPv2、CVQA和所有的CLEVR資料集上效果第二好的模型,平均而言、它在資料集上得分最高,表明它可以在自然資料集和測試推理的合成資料集上進行泛化。BAN的平均得分次高,BAN适用于自然圖像資料集,在VQAv1、VQAv2和VQACPv2上優于其他模型,然而,BAN表現出的組合推理能力有限。盡管RABEN在概念上比BAN簡單的多,但在CLEVR上的表現超過BAN6%,在CLEVR-CoGenT-B上高出10%。在所有的組合推理測試中,RAMEN都在MAC的1.4%以内。UpDn和QCG在CLEVR上表現不佳。

        跨問題類型的泛化:我們使用TDIUC來研究問題類型的泛化。TDIUC有多個精度度量,mean-per-type(MPT)和歸一化mean-per-type(N-MPT)補償偏見。如表3所示,所有方法的簡單準确率都超過82%,然而,MPT和NMPT的得分都低了13-20%,較低的MPT分數表明,所有的算法都在努力推廣到多個任務。RAMEN的MPT最高,其次是BAN。對于所有的算法,“對象存在”、“對象識别”和“場景識别”是最簡單的任務,所有方法的準确率都超過84%;然而,這些任務都有相對大量的訓練資料(各有60K-657KQA對),所有方法在“運動識别”(31KQA對)上均表現良好,準确率超過93%,但在概念上相似的“活動識别”任務(8.5KQA對)上均表現不佳,準确率低于62%。這表明了無法用較少的例子泛化到問題類型。為了強調這一點,TDIUC提供标準化MPT(N-MPT)通過考慮答案頻率來衡量對罕見答案的泛化。對于所有模型,标準化和非标準化分數之間的差異都很大,RAMEN的差距最小,表明RAMEN最能抵抗分布偏差,而BAN的差距最大。

2019:Answer Them All! Toward Universal Visual Question Answering Models摘要一、介紹二、相關工作三、RAMEN VQA模型四、VQA模型評估五、實驗和結果 六、讨論:一個模型可以統治他們的全部嗎七、結論

          新概念組合的泛化:我們使用CVQA和CLEVR-CoGenT-B來評估概念的組合性。如表2所示,CVQA上的分數低于VQAv1,這表明所有的算法在以新的方式組合概念時都很困難。MAC的性能下降最大,這表明它的推理單元不能有效地組成真實世界的視覺語言概念。

         為了評估在合成資料集上推廣到新概念組成的能力,我們在CLEVR-CoGenT-A的訓練分割上訓練模型,并在沒有微調的情況下對驗證集進行評估。在[44]之後,我們從“B”的驗證集中獲得一個測試分割,并在“B”上沒有微調的情況下報告性能。所有算法的性能都有大幅下降。與CVQA的結果不同,MAC的性能下降更小。同樣,RAMEN的性能下降幅度相對較小。

         在VQACP v2的變化先驗的性能:所有算法在變化先驗下的性能都有很大下降,表明,要使VQA算法克服語言和視覺先驗,還有很多的工作要做。

        計數和數值比較:對于CLEVR,計數和數字比較(“等于整數”、“大于”和“小于”)是跨算法中最具挑戰性的任務,如表4所示。MAC在這些任務上表現最好,其次是RAMEN。除了MAC和QCG之外的算法顯示了“小于”和“大于”問題類型之間存在很大的(>4.8%)差異,這需要類似的推理類型。這種差異在RN中最為明顯(9.13%),表明在語言了解方面存在困難。BAN使用一個計數子產品[54];然而,它在CLEVR的計數任務上的性能仍然比MAC低9%。所有的算法也都難以在自然圖像中進行計數。盡管TDIUC有超過164K的計數問題,但所有方法在這些問題上的得分都低于62%。

2019:Answer Them All! Toward Universal Visual Question Answering Models摘要一、介紹二、相關工作三、RAMEN VQA模型四、VQA模型評估五、實驗和結果 六、讨論:一個模型可以統治他們的全部嗎七、結論

         其它的CLEVR任務:如表4所示,除數字比較外,RAMEN在所有任務上的表現與MAC相比都在0.03-1.5%以内。UpDn和QCG是在所有查詢類型上性能最差的模型。除了QCG之外,所有的模型都發現它很容易回答關于對象屬性和存在性的查詢。除了UpDn和QCG之外的模型在需要比較這些屬性的屬性比較問題上表現良好。令人驚訝的是,BAN找到了屬性比較,這需要更多的推理,比更簡單的屬性查詢任務更容易。我們在沒有微調的情況下展示了CLEVR-Humans上的結果,以檢驗如果算法隻在CLEVR的詞彙表上進行訓練,它們處理自由形式語言的效果。BAN的泛化效果最好,其次是RAMEN和RN。

 5.2 消融研究

        表5給出了幾種測試RAMEN成分貢獻的消融研究的結果。我們發現,早期融合對RAMEN的性能至關重要,去除它會導緻CLEVR的準确率下降近20%,而VQAv2的準确率下降近4%。去除晚期融合對CLEVR和VQAv2影響不大。

         我們還探索了與使用平均池相比于使用bi-GRU用于聚合的效用,并發現這導緻了兩個資料集的性能下降。我們認為,循環聚合有助于捕獲雙模态嵌入之間的互動作用,這對推理任務至關重要,而且它還可以通過執行一種非最大抑制的形式來幫助删除重複建議。

2019:Answer Them All! Toward Universal Visual Question Answering Models摘要一、介紹二、相關工作三、RAMEN VQA模型四、VQA模型評估五、實驗和結果 六、讨論:一個模型可以統治他們的全部嗎七、結論

 5.3 更新的模型

        通過設計的透明度網絡(TBD)通過使用地面真實函數程式來訓練網絡,在CLEVR上實作了99.1%的精度,對自然的VQA資料集是不可用的。神經符号VQA(NS-VQA)在CLEVR上的得分為99.8%,但使用問題解析器來配置設定功能子產品和高度專門基于分割的CNN特征,他們沒有進行消融研究來确定這些視覺特征的影響。我們比較的所有模型都不能通路這些額外的資源。

        通過使用來自其它VQA資料集的額外資料和內建,在VQAv2上的結果可以顯著改善,例如2018年挑戰的獲勝者使用了來自VisualDialog[11]的對話作為額外的問答對和30個模型的集合。這些增強功能可以應用于我們評估的任何模型,以提高性能。VQACPv2的結果也可以使用專門的架構進行改進,例如使用對抗性正則化[46]的GVQA[4]和UpDn。然而,它們在VQACPv2上的性能仍然很差,采用對抗性正則化的UpDn的準确率達到42.04%,比非正則化模型僅提高了2.98%。

 六、讨論:一個模型可以統治他們的全部嗎

        我們進行了第一個系統的研究,以檢驗在合成資料集上工作的VQA系統是否推廣到真實資料集,反之亦然。這是我們項目的最初範圍,但當我們發現沒有一種方法在資料集上有效時,我們感到震驚。這促使我們建立一個新的算法,盡管RAMEN比許多算法更簡單,但拉面可以競争甚至超過其他方法。我們認為,一些最先進的架構可能被過度設計,利用了它們最初測試的領域中的偏差,導緻在其他資料集上測試時的性能下降。這導緻我們質疑,在一個特定的資料集上使用高度專門的機制是否會導緻該領域取得重大進展,因為我們概念上更簡單的算法在沒有這種機制的自然和合成資料集上都具有競争力。

        我們提倡開發一個單一的VQA模型,它在廣泛的挑戰中表現得很好。在持續學習範式中訓練該模型将評估前向和後向轉移[17,27,42]。另一個有趣的方法是将VQA與視覺查詢檢測[1]等相關任務相結合。無論如何,現有的算法,包括我們的算法,在展示視覺語言概念的了解和推理方面還有很長的路要走。從CVQA和VQACPv2上的大幅性能下降可以證明,目前的算法在學習成分概念方面表現很差,并且受到這些資料集的偏差的影響,這表明依賴于表面相關性。我們觀察到,僅為合成的封閉世界場景開發的方法往往無法處理不受限制的自然圖像和問題。盡管VQAv2和CLEVR的性能在這些基準測試上正接近人類水準,但我們的結果顯示VQA還遠未得到解決。我們認為,未來的工作應該集中于建立一個跨領域工作良好的模型。在一個通用的訓練集上訓練一個資料集,然後在多個測試集上評估它将是很有趣的,每個測試集要求不同的技能集。這樣做将有助于尋找一個能夠控制它們全部的VQA模型。

七、結論

        我們的工作努力為VQA算法的期望設定一個新的标準:在自然場景中的良好性能和具有挑戰性的綜合基準測試。我們希望我們的工作将帶來VQA未來的進步。

繼續閱讀