Facebook開源看圖問答模型Pythia：拿下VQA比賽冠軍就靠它

2018-07-30 23:50:00

——貓戴着什麼？

——帽子。

——天氣怎麼樣？

——下雨。

——披薩上面是什麼？

——蘑菇。

看圖回答這些問題，對我們人類來說再簡單不過了，但是要讓AI熟練掌握這項技能，還需要探索。

Facebook剛剛為這個領域的探索者們，開源了一個子產品化視覺問答架構：Pythia。

事情還要從在弗吉尼亞理工大學和喬治亞理工大學主辦的視覺問答（Visual Question Ansering）比賽VQA Challenge說起。

比賽上，Facebook AI研究院（FAIR）隊伍，A-STAR拿下了冠軍。總成績72.41分，排名第一，在是否（上圖的Yes/No）、其他（Other）兩類問題上也排名第一，分别拿下了87.7和63.95分，就是數學（Number）成績差了點，51.51分，不及格，排在第六。

其他的參賽者，回答“是/否”都答得還算不錯，回答數字都不及格，而答案五花八門的其他問題，也在及格線上下徘徊。

奪冠的FAIR觀察發現，目前的視覺問答（VQA）模型，無外乎這樣幾個子產品：問題編碼、圖像特征提取、答案空間分類。

于是，他們就想針對VQA領域，打造一個簡單的子產品化的模型研發平台，說不定還能順便用在看圖對話上。

建造平台的第一步，就是開源了A-STAR參賽所用模型的基礎架構：Pythia，目前版本号v0.1。

為Pythia打下基礎的，是2017年VQA Challenge冠軍，Peter Anderson等人提出的Bottom-Up and Top-Down Attention模型。

Bottom-Up，指的是這個模型以ResNet-101為基幹網絡，用了Visual Genome資料集預訓練的Faster-RCNN，用自底向上的注意力機制來提取圖像特征。

而Top-Down，指的是根據問題（目前任務）來計算圖像區域上的注意力分布。

在這個模型的基礎上，FAIR團隊做了一些調整。

比如說，将up-down模型裡的雙曲正切激活函數換成權重标準化+ReLU，用Adamax來優化模型，增大學習率。又比如，把bottom-up模型裡的目标檢測模型換成Detectron裡的FPN，還對用到的資料集：Visual Genome、Visual Dialog等都做了資料擴增。

每一個子產品的優化，都帶來了模型性能的提升。

BTW，Facebook參賽隊伍和架構的名字都别有深意。

隊伍的名字——A-STAR，跟星星沒什麼關系，它是意思是能看、說話、行動、推理的智能體（Agents that See, Talk, Act, and Reason）

架構名字Pythia，也就是希臘神話中的皮提亞，德爾菲阿波羅神廟中的女祭司。女祭司的一項重要工作嘛，就是回答問題。

如果你也想搭一個會看圖回答問題的模型，收好這份paper：

Pythia v0.1: the Winning Entry to the VQA Challenge 2018

*Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh

https://arxiv.org/pdf/1807.09956.pdf

以及開源代碼：

https://github.com/facebookresearch/pythia

為它打下基礎的Bottom-Up and Top-Down Attention：

https://github.com/hengyuan-hu/bottom-up-attention-vqa

原文釋出時間為：2018-07-29

本文來自雲栖社群合作夥伴“

量子位

”，了解相關資訊可以關注“量子位”。

Facebook開源看圖問答模型Pythia：拿下VQA比賽冠軍就靠它

繼續閱讀

Facebook F8 遙望筆記Day 1紮克演講部分MessageVR/AR in the Future詳細介紹部分Day2

Facebook專家強烈質疑人類預測能力，未來隻有靠AI才能自救！

GitHub最大更新：直接運作代碼；人工智能涼了？年度報告揭示真相

Facebook又要重組VR部門，并将于明年推出新一代Rift頭顯

Facebook 釋出無梯度優化開源工具 Nevergrad，可應用于各類機器學習問題

Facebook 開源高速大規模圖嵌入工具 PBG

阿裡開源新一代 AI 算法模型，由達摩院90後科學家研發

Facebook開源預測工具Prophet安裝

Facebook 在 2013 年的開源貢獻

KVOController：facebook 開源的 KVO（Key-value Observing）工具

Facebook 釋出開源程式設計語言 Hack

清華深度學習架構 Jittor 開源，創新元算子和統一計算圖，推理速度可提升 10%-50%

50萬美元冠軍成績被莫名取消，Facebook熱門資料競賽引争議

GitHub開源14.5萬行阿波羅11号源代碼

GitHub開源：4行代碼實作《黑客帝國》數字雨特效

GitHub開源城市結構公交路線資料可視化