【CVPR 2018熱文】MIT提出“透明設計”網絡，揭開視覺黑盒

根據看到的圖像來回答問題，需要在圖像識别和分類的基礎上再進一步，形成對圖中物體彼此關系的推理和了解，是機器完成複雜任務所需的一項基本能力，也是視覺研究人員目前正在努力攻克的問題。

最近，在視覺推理任務中，子產品化的網絡展現出了很高的性能，但它們在可解釋性方面還多有欠缺。為了解決這個問題，MIT和普朗克航空系統公司的研究人員合作，圍繞視覺注意力機制，提出了一組視覺推理原語（primitives），組合起來後得到的模型，能夠以明确可解釋的方式，執行複雜的視覺推理任務，在視覺了解資料集CLEVR上達到了99.1%的準确率。

他們将這種設計模型的方法稱之為“透明設計”（Transparency-by-Design，TbD），使用這種方法設計出的網絡則稱為“透明設計網絡”（TbD-nets)。

CLEVR視覺問答任務示意：新提出的透明設計網絡（TbD-net）組成了一系列的注意力掩碼（mask），使其能夠正确計數圖像中的兩個大型（Large）金屬（Metal）圓柱體（Cyliner）。

由上可見，子產品在輸出時，将結果高亮顯示，這樣人類也能夠檢查每個子產品的中間輸出，并且從一個高的層次了解子產品的行為，研究人員認為，這樣的模型就可以說是“透明”的。他們在論文中寫道，這些原語的輸出的保真度（fidelity）和可解釋性（interpretability），讓我們在診斷所得模型的優缺點方面，獲得了無與倫比的能力。由此，縮小了現有視覺了解模型在性能和可解釋性之間的差距。

他們還表明，當提供給模型的資料集很小，而且其中含有從未見過的新資料時，模型也能很好地學會泛化表示。在CoGenT泛化任務中，得到了比現有最好技術提高了20個百分點的成績。

相關論文《透明設計：縮小視覺推理中性能和可解釋性之間的差距》（Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning），已經被CVPR 2018接收。利用開源代碼，你也能建構視覺了解模型并在CLEVR資料集上測試，自己問問題，看看模型能否給出正确回答。

論文: https://arxiv.org/abs/1803.05268v1

代碼: https://github.com/davidmascharka/tbd-nets

CLEVR：10 萬圖像+100 萬問題，建構視覺了解基準

在介紹成果前，簡單介紹一下這項工作的基礎——CLEVR資料集。CLEVR是李飛飛上司的斯坦福人工智能實驗室和Facebook AI Lab聯合提出的一個視覺問題基準，結合語義和推理，測試機器的語言視覺（Language Vision）在語義（Syntax）和推理（Inference）方面的能力。

CLEVR 包含 10 萬張經過渲染的圖像和大約 100 萬個自動生成的問題，其中有 85.3 萬個問題是互不相同的，包含了測試計數、比較、邏輯推理和在記憶中存儲資訊等視覺推理能力的圖像和問題。

CoGenT是CLEVR的一個子任務，全稱是Compositional Generalization Test，檢驗模型在測試時識别新組合的屬性的能力。

CLEVR中的每個問題都以自然語言和函數程式設計（functional program）的形式表示，函數程式設計表示讓人能精确确定模型回答每個問題所需的推理技能。

透明設計：圍繞注意力機制建構，可解釋的視覺推理原語

将一個複雜的推理鍊分解為一系列較小的子問題，其中每一個子問題都可以獨立解決，然後組合起來，這是一種強大而直覺的推理手段。像這樣的子產品化結構還允許在推理過程的每個步驟檢查網絡的輸出，取決于産生可解釋輸出的子產品設計。

受此啟發，我們提出一個神經子產品網絡（neural module network），該網絡在圖像空間中建構一個注意力機制模型，我們稱之為透明設計網絡（ Transparency by Design network ，TbD-net），因為透明度（Transparency）是我們設計決策的驅動因素。

這個設計決策考慮到一些子產品隻需要關注圖像中某個局部的特征，例如注意力子產品（Attention module）隻關注不同的對象或特征一樣。其他子產品則需要在全局環境中執行操作，例如關聯子產品（Relate modules），它必須要将注意力轉移到整個圖像上。我們将每個子產品任務的先驗知識與經驗實驗相結合，進而為每個操作優化出一套新的子產品化架構。

在視覺問題回答任務中，推理鍊中的大多數步驟都需要對具有一些明顯可見屬性的對象（例如顔色，材質等）進行定位。我們確定每個執行此類型過濾的TbD子產品都輸出一維注意力掩模（attention mask），它可以明确地劃分相關的空間區域。是以， TbD-net不是在整個網絡中細化高維特征映射，而是僅通過其子產品之間的attention mask。通過故意強化這種行為，我們産生了一個極好的具有可解釋性和直覺性的模型。這意味着我們離打開複雜的神經網絡的黑盒又近了一步。

圖3顯示了一個TbDnet如何在整個推理鍊中适當地轉移注意力，它解決了一個複雜的VQA問題，并且通過直接顯示它産生的attention mask，可以很容易地解釋這個過程。這裡顯示的所有attention masks都是使用視覺均勻的顔色圖生成的。

架構細節

以下描述每個子產品的架構。表1顯示了所有的子產品概覽。有幾個子產品共享輸入和輸出類型（例如Attention和Relate），但實作方式不同，這取決于它們的特定任務。

表1：Transparency by Design network中使用的子產品。Attention和Encoding分别指前一子產品的單維和高維輸出。Stem是指訓練的神經網絡産生的圖像特征。變量x和y表示場景中不同的對象，例如[property]表示顔色，形狀，大小或材質

我們使用從ResNet-101中提取的圖像特征，并通過一個簡單的卷積子產品“stem”提供這些特征。我們為大多數子產品提供了stem特征，這確定了每個子產品都可以輕松通路圖像特征，并且在長的合成中不會丢失任何資訊。stem可以将ResNet的高維特征輸入轉換為适合我們任務的低維特征。

具體的子產品描述如下：