專欄 | 香侬科技獨家對話Facebook AI研究院首席科學家Devi Perikh

Facebook 人工智能研究院（FAIR）首席科學家、佐治亞理工互動計算學院教授、計算機視覺實驗室主任 Devi Parikh 是 2017 年 IJCAI 計算機和思想獎獲得者（IJCAI 兩個最重要的獎項之一，被譽為國際人工智能領域的“菲爾茲獎”），并位列福布斯 2017 年“20 位引領 AI 研究的女性”榜單。她主要從事計算機視覺和模式識别研究，具體研究領域包括計算機視覺、語言與視覺、通識推理、人工智能、人機合作、語境推理以及模式識别。

2008 年到現在，Devi Parikh 先後在計算機視覺三大頂級會議（ICCV、CVPR、ECCV）發表多篇論文。她所主持開發的視覺問題回答資料集（Visual Question Anwering）受到了廣泛的關注，并在 CVPR 2016 上組織了 VQA 挑戰賽和 VQA 研讨會，極大地推動了機器智能了解圖檔這一問題的解決，并是以獲得了 2016 年美國國家科學基金會的“傑出青年教授獎（NSF CAREER Award）。她最近的研究集中在視覺、自然語言處理和推理的交叉領域，希望通過人和機器的互動來構造一個更加智能的系統。

香侬科技：您和您的團隊開發的視覺問答資料集（VQA, Visual Question Answering Dataset, Antol et al. ICCV2015; Agrawal et al. IJCV 2017）極大地推動了該領域的發展。這一資料集囊括了包括計算機視覺，自然語言處理，常識推理等多個領域。您如何評估 VQA 資料集到目前産生的影響？是否實作了您開發此資料集的初衷？您期望未來幾年 VQA 資料集（及其進階版）對該領域産生何種影響？

Devi and Aishwarya：

VQA 資料集影響：

我們在 VQA 上的工作釋出後短期内受到了廣泛的關注 – 被超過 800 篇論文所引用（(Antol et al. ICCV 2015; Agrawal et al. IJCV 2017)，還在 15 年 ICCV 上“對話中的物體認知”研讨會中獲得最佳海報獎（Best Poster Award）。

為了評估 VQA 的進展，我們用 VQA 第一版為資料集，在 2016 年 IEEE 國際計算機視覺與模式識别會議（CVPR-16，IEEE Conference on Computer Vision and Pattern Recognition 2016）上組織了第一次 VQA 挑戰賽和第一次 VQA 研讨會（Antol etal. ICCV 2015; Agrawal et al. IJCV 2017）。挑戰和研讨會都很受歡迎：來自學術界和工業界的 8 個國家的大約 30 個團隊參與了這一挑戰。在此次挑戰中，VQA 的準确率從 58.5％提高到 67％，提升了 8.5％。

專欄 | 香侬科技獨家對話Facebook AI研究院首席科學家Devi Perikh

▲ 圖1. VQA資料集中的問答樣例

VQA v1 資料集和 VQA 挑戰賽不僅促進了原有解決方案的改進，更催生了一批新的模型和資料集。例如，使用空間注意力來聚焦與問題相關的圖像區域的模型（Stacked Attention Networks, Yang et al., CVPR16）；以分層的方式共同推理圖像和問題應該注意何處的注意力神經網絡（Hierarchical Question Image Co-attention, Lu et al., NIPS16）；可以動态組合子產品的模型，其中每個子產品專門用于顔色分類等子任務（Neural Module Networks, Andreas et al., CVPR16）；使用雙線性池化等運算融合視覺和語言特征，進而提取更豐富的表征的模型（Multimodal Compact Bilinear Pooling，Fukui et al.，EMNLP16）。

此外，VQA 也催生了許多新的資料集，包括側重于視覺推理和語言組合性的模型及相關資料集（CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning, Johnson et al., CVPR17）；對于 VQA 第一版資料集的重新切分，使其可以用來研究語言的組合性問題 C-VQA（A Compositional Split of the VQA v1.0 Dataset, Agrawal et al., ArXiv17）；還有需要模型克服先驗言語知識的影響，必須要觀察圖像才能回答問題的 VQA 資料集（Agrawal et al., CVPR18）。

簡而言之，我們在 VQA 上的工作已經在人工智能中建立了一個新的多學科子領域。事實上，在這個資料集釋出不久，在一些重要的 AI 會議上，當你送出論文并選擇相關的子主題時，VQA 已成為一個新增選項。

是否實作了 VQA 開發的初衷：

盡管 VQA 社群在提高 VQA 模型的性能方面取得了巨大進步（VQA v2 資料集上的預測準确率在 3 年内從 54％提高到 72％），但我們距離完全解決 VQA 任務還有很長的路要走。現有的 VQA 模型仍然缺乏很多必要的能力，比如：視覺落地 (visual grounding)，組合性（compositionality），常識推理等，而這些能力是解決 VQA 的核心。

當我們開發資料集時，我們認為模型的泛化應該是一個很大挑戰，因為你很難期望模型在訓練集上訓練，就能很好地推廣到測試集。因為在測試時，模型可能會遇到關于圖像的任何開放式問題，而很有可能在訓練期間沒有遇到過類似的問題。我們期望研究人員能嘗試利用外部知識來處理此類問題，但是在這方面的工作現階段還很少。不過我們已經看到了一些在該方面的初步進展（e.g., Narasimhan et al. ECCV 2018, Wang et al. PAMI 2017），希望将來會看到更多。

期望 VQA 資料集未來的影響：

我們希望 VQA 資料集對該領域能産生直接和間接的影響。直接的影響是指，我們期望在未來幾年内能湧現更多新穎的模型或技術，以進一步改進 VQA 第一版和 VQA 第二版資料集上的預測準确率。而間接的影響是指，我們希望更多全新的資料集和新任務能被開發出來，如 CLEVR（Johnson等人, CVPR17），Compositional VQA（Agrawal等人，ArXiv17），需要克服先驗語言知識的 VQA （Agrawal et al.，CVPR18），基于圖像的對話（Das et al.，CVPR17），需要具身認知的問答（Embodied Question Answering, Das et al.，CVPR18）。它們或直接建構在 VQA 資料集之上，或是為解決現有 VQA 系統的局限性所構造。是以，我們期待 VQA 資料集（及其變體）能進一步将現有 AI 系統的能力提升，構造可以了解語言圖像，能夠生成自然語言，執行動作并進行推理的系統。

香侬科技：最近，您的團隊釋出了 VQA 第二版（Goyal et al. CVPR 2017），其中包含對應同一問題有着不同答案的相似圖像對。這樣的資料集更具挑戰性。通常，建立更具挑戰性的資料集會迫使模型編碼更多有用的資訊。但是，建構這樣的資料集會耗費大量人力。是否可以用自動的方式來生成幹擾性或對抗性的示例，進而将模型的預測能力提升到一個新的水準呢？

▲ 圖2. VQA 2.0資料集中的圖檔及問題示例，每個問題對應着兩個相似、但卻需要不同回答的圖檔。圖檔來自論文Goyal et al. CVPR 2017

Devi, Yash, and Jiasen：建構大規模資料集确實是勞動密集型的工作。目前有一些基于現有标注自動生成新的問答對的工作。例如，Mahendru 等人 EMNLP 2017 使用基于模闆的方法，根據 VQA 訓練集的問題前提，生成關于日常生活中的基本概念的新問答對。這一研究發現，将這些簡單的新問答對添加到 VQA 訓練資料可以提高模型的性能，尤其是在處理語言組合性（compositionality）的問題上。

在資料增強這一問題上，生成與圖像相關的問題也是一個很重要的課題。與上述基于模闆生成問題的方法不同，這種方法生成的問題更自然。但是，這些模型還遠不成熟，且無法對生成問題進行回答。是以，為圖像自動生成準确的問答對目前還是非常困難的。要解決這一問題，半監督學習和對抗性例子生成可能會提供一些比較好的思路。

值得注意的是，關于圖像問題的早期資料集之一是 Mengye Ren 等人在 2015 年開發的 Toronto COCO-QA 資料集。他們使用自然語言處理工具自動将關于圖像的标注轉換為問答對。雖然這樣的問答對通常會留下奇怪的人為痕迹，但是将一個任務的标注（在本例中為字幕）轉換為另一個相關任務的标注（在這種情況下是問答）是一個極好的方法。

香侬科技：除 VQA 任務外，您還開發了基于圖像的對話資料集——Visual Dialog Dataset（Das et al., CVPR 2017, Spotlight）。在收集資料時，您在亞馬遜勞務衆包平台（一個被廣泛使用的衆包式資料标注平台）上配對了兩個參與者，給其中一個人展示一張圖檔和圖的标題，另一個人隻能看到圖的标題，任務要求隻能看到标題的參與者向另一個能看到圖檔的參與者提出有關圖檔的問題，以更好地想象這個圖像的場景。這個資料集為我們清晰地揭示了圖像中哪些資訊人們認為更值得擷取。您是否認為對模型進行預訓練來猜測人們可能會問什麼問題，可以讓模型具備更像人類的注意力機制，進而提高其問答能力？

▲ 圖3. 基于圖像的對話任務，聊天機器人需要就圖像内容與一個人展開對話。樣例來自論文Das et al., CVPR 2017

Devi and Abhishek：在這些對話中，問題的提出存在一些規律：對話總是開始于談論最醒目的對象及其屬性（如人，動物，大型物體等），結束在關于環境的問題上（比如，“圖像中還有什麼？”，“天氣怎麼樣？”等）。如果我們可以使模型學習以區分相似圖像為目的來提出問題并提供答案，進而使提問者可以猜出圖像，就可以生成更好的視覺對話模型。Das & Kottur et al., ICCV 2017 展示了一些相關的工作。

香侬科技：組合性是自然語言處理領域的一個經典問題。您和您的同僚曾研究評估和改進 VQA 系統的組合性（Agrawal et al. 2017）。一個很有希望的方向是結合符号方法和深度學習方法（例，Lu et al. CVPR 2018, Spotlight）。您能談談為什麼神經網絡普遍不能系統性地泛化，以及我們能如何解決這個問題嗎？

▲ 圖4. 組合性VQA資料集（C-VQA）的示例。測試集中詞語的組合是模型在訓練集中沒有學習過的，雖然這些組合中的每一單個詞在訓練集中都出現過。圖檔來源于Agrawal et al. 2017

Devi and Jiasen：我們認為産生這樣結果的一個原因是這些模型缺乏常識，如世界是如何運作的，什麼是可以預期的，什麼是不可預期的。這類知識是人類如何從例子中學習，或者說面對突發事件時依然可以做出合理決策的關鍵。當下的神經網絡更接近模式比對算法，它們擅長從訓練資料集中提取出輸入與輸出之間複雜的相關性，但在某種程度上說，這也是它們可以做的全部了。将外部知識納入神經網絡的方法現在仍然非常匮乏。

香侬科技：您的工作已經超越了視覺和語言的結合，擴充到了多模式整合。在您最近發表的 Embodied Question Answering 論文中（Das et al. CVPR, 2018），您介紹了一項包括主動感覺，語言了解，目标驅動導航，常識推理以及語言落地為行動的任務。這是一個非常有吸引力的方向，它更加現實，并且與機器人關系更加緊密。在這種背景下的一個挑戰是快速适應新環境。您認為在 3D 房間環境中訓練的模型（如您的那篇論文中的模型）會很快适應其他場景，如戶外環境嗎？我們是否必須在模型中專門建立元學習（meta-learning）能力才能實作快速适應？

▲ 在具身問答（Embodied QA）任務中，機器人通過探索周圍的3D環境來回答問題。為完成這項任務，機器人必須結合自然語言處理、視覺推理和目标導航的能力。圖檔來自于Das et al. CVPR 2018

Devi and Abhishek：在目前的執行個體中，他們還不能推廣到戶外環境。這些系統學習到的東西與他們接受訓練時的圖像和環境的特定分布密切相關。是以，雖然對新的室内環境的一些泛化是可能的，但對于戶外環境，他們在訓練期間還沒有看到過足夠多的戶外環境示例。例如，在室内環境中，牆壁結構和深度給出了關于可行路徑和不可行路徑的線索。而在室外環境中，路表面的情況（例如，是道路還是草坪）可能與系統能否在該路徑上通行更相關，而深度卻沒那麼相關了。

即使在室内的範圍内，從 3D 房間到更逼真的環境的泛化也是一個未完全解決的問題。元學習方法肯定有助于更好地推廣到新的任務和環境。我們還在考慮構模組化塊化的系統，将感覺與導航功能分離，是以在新環境中隻需要重新學習感覺子產品，然後将新的環境（例如更真實的環境）的視覺輸入映射到規劃子產品更為熟悉的特征空間。

香侬科技：您有一系列論文研究 VQA 任務中問題的前提（Ray et al. EMNLP 2016, Mahendru et al. 2017），并且您的研究發現，迫使 VQA 模型在訓練期間對問題前提是否成立進行判斷，可以提升模型在組合性（compositionality）問題上的泛化能力。目前 NLP 領域似乎有一個普遍的趨勢，就是用輔助任務來提高模型在主要任務上的性能。但并非每項輔助任務都一定會有幫助，您能說說我們要如何找到有用的輔助任務嗎？

▲ 圖6. VQA問題中常常包含一些隐藏前提，會提示一部分圖像資訊。是以Mahendru et al. 構造了“問題相關性預測與解釋”資料集（Question Relevance Prediction and Explanation, QRPE）。圖中例子展示了Mahendru et al. EMNLP 2017一文中“錯誤前提偵測”模型偵測到的一些前提不成立的問題

Devi and Viraj：在我們實驗室 Mahendru 等人 2017 年發表的論文中，作者的目标是通過推理問題的前提是否成立，來使 VQA 模型能夠更智能地回答不相關或以前從未遇到的問題。我們當時有一個想法，認為用這樣的方式來擴充資料集可能幫助模型将物體及其屬性分離開，這正是組合性問題的實質，而後來經過實驗發現确實如此。

更廣義地來說，我們現在已經看到了很多這種跨任務遷移學習的例子。例如，圍繞問題回答，機器翻譯，目标導向的對話等多任務展開的 decaNLP 挑戰。或者，将用于 RGB 三維重建，語義分割和深度估計（depth estimation）的模型一起訓練，建構一個強大的視覺系統，用于完成需要具身認知的任務（Embodied Agents, Das et al. 2018）。當然也包括那些首先在 ImageNet 上預訓練，然後在特定任務上微調這樣的被廣泛使用的方法。所有這些都表明，即使對于多個跨度很大的任務，多任務下學習的表征也可以非常有效地遷移。但不得不承認，發現有意義的輔助任務更像是一門藝術，而不是科學。

香侬科技：近年來，深度學習模型的可解釋性受到了很多關注。您也有幾篇關于解釋視覺問答模型的論文，比如了解模型在回答問題時會關注輸入的哪個部分，或是将模型注意力與人類注意力進行比較（Das et al. EMNLP 2016, Goyal et al. ICML 2016 Workshop on Visualization for Deep Learning, Best Student Paper）。您認為增強深度神經網絡的可解釋性可以幫助我們開發更好的深度學習模型嗎？如果是這樣，是以什麼方式呢？

▲ 圖7. 通過尋找模型在回答問題時關注了輸入問題中哪部分字段（高亮部分顯示了問題中的詞彙重要性的熱圖）來解釋模型預測的機制。比如上面問題中“whole”是對模型給出回答“no”最關鍵的詞語。圖檔來源于論文Goyal et al. ICML 2016 Workshop on Visualization for Deep Learning

Devi and Abhishek：我們的 Grad-CAM 論文（Selvarajuet et al., ICCV 2017）中的一段話對這個問題給出了答案：

從廣義上講，透明度/可解釋性在人工智能（AI）演化的三個不同階段都是有用的。首先，當 AI 明顯弱于人類并且尚不能可靠地大規模應用時（例如視覺問題回答），透明度和可解釋性的目的是識别出模型為什麼失敗，進而幫助研究人員将精力集中在最有前景的研究方向上；其次，當人工智能與人類相當并且可以大規模使用時（例如，在足夠資料上訓練過的對特定類别進行圖像分類的模型），研究可解釋性的目的是在使用者群體中建立對模型的信心。第三，當人工智能顯著強于人類（例如國際象棋或圍棋）時，使模型可解釋的目的是機器教學，即讓機器來教人如何做出更好的決策。

可解釋性确實可以幫助我們改進深度神經網絡模型。對此我們發現的一些初步證據如下：如果 VQA 模型被限制在人們認為與問題相關的圖像區域内尋找答案，模型在測試時可以更好的落地并且更好地推廣到有不同“答案先驗機率分布”的情況中（即 VQA-CP 資料集這樣的情況）。

可解釋性也常常可以揭示模型所學到的偏見。這樣做可以使系統設計人員使用更好的訓練資料或采取必要的措施來糾正這種偏見。我們的 Grad-CAM 論文（Selvaraju et al.，ICCV 2017）的第 6.3 節就報告了這樣一個實驗。這表明，可解釋性可以幫助檢測和消除資料集中的偏見，這不僅對于泛化很重要，而且随着越來越多的算法被應用在實際社會問題上，可解釋性對于産生公平和符合道德規範的結果也很重要。

香侬科技：在過去，您做了很多有影響力的工作，并發表了許多被廣泛引用的論文。您可以和剛剛進入 NLP 領域的學生分享一些建議，告訴大家該如何培養關于研究課題的良好品味嗎？

Devi：我會引用我從 Jitendra Malik（加州大學伯克利分校電子工程與計算機科學教授）那裡聽到的建議。我們可以從兩個次元去考慮研究課題：重要性和可解決性。有些問題是可以解決的，但并不重要；有些問題很重要，但基于整個領域目前所處的位置，幾乎不可能取得任何進展。努力找出那些重要、而且你可以（部分）解決的問題。當然，說起來容易做起來難，除了這兩個因素之外也還有其他方面需要考慮。例如，我總是被好奇心驅使，研究自己覺得有趣的問題。但這可能是對于前面兩個因素很有用的一個一階近似。

原文釋出時間為：2018-08-22

本文作者：香侬說

本文來自雲栖社群合作夥伴“

PaperWeekly

”，了解相關資訊可以關注“

”。

專欄 | 香侬科技獨家對話Facebook AI研究院首席科學家Devi Perikh

繼續閱讀

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普