天天看點

Facebook開源看圖問答模型Pythia:拿下VQA比賽冠軍就靠它

Facebook開源看圖問答模型Pythia:拿下VQA比賽冠軍就靠它

——貓戴着什麼?

——帽子。

Facebook開源看圖問答模型Pythia:拿下VQA比賽冠軍就靠它

——天氣怎麼樣?

——下雨。

Facebook開源看圖問答模型Pythia:拿下VQA比賽冠軍就靠它

——披薩上面是什麼?

——蘑菇。

看圖回答這些問題,對我們人類來說再簡單不過了,但是要讓AI熟練掌握這項技能,還需要探索。

Facebook剛剛為這個領域的探索者們,開源了一個子產品化視覺問答架構:Pythia。

事情還要從在弗吉尼亞理工大學和喬治亞理工大學主辦的視覺問答(Visual Question Ansering)比賽VQA Challenge說起。

Facebook開源看圖問答模型Pythia:拿下VQA比賽冠軍就靠它

比賽上,Facebook AI研究院(FAIR)隊伍,A-STAR拿下了冠軍。總成績72.41分,排名第一,在是否(上圖的Yes/No)、其他(Other)兩類問題上也排名第一,分别拿下了87.7和63.95分,就是數學(Number)成績差了點,51.51分,不及格,排在第六。

其他的參賽者,回答“是/否”都答得還算不錯,回答數字都不及格,而答案五花八門的其他問題,也在及格線上下徘徊。

奪冠的FAIR觀察發現,目前的視覺問答(VQA)模型,無外乎這樣幾個子產品:問題編碼、圖像特征提取、答案空間分類。

于是,他們就想針對VQA領域,打造一個簡單的子產品化的模型研發平台,說不定還能順便用在看圖對話上。

建造平台的第一步,就是開源了A-STAR參賽所用模型的基礎架構:Pythia,目前版本号v0.1。

為Pythia打下基礎的,是2017年VQA Challenge冠軍,Peter Anderson等人提出的Bottom-Up and Top-Down Attention模型。

Bottom-Up,指的是這個模型以ResNet-101為基幹網絡,用了Visual Genome資料集預訓練的Faster-RCNN,用自底向上的注意力機制來提取圖像特征。

而Top-Down,指的是根據問題(目前任務)來計算圖像區域上的注意力分布。

在這個模型的基礎上,FAIR團隊做了一些調整。

比如說,将up-down模型裡的雙曲正切激活函數換成權重标準化+ReLU,用Adamax來優化模型,增大學習率。又比如,把bottom-up模型裡的目标檢測模型換成Detectron裡的FPN,還對用到的資料集:Visual Genome、Visual Dialog等都做了資料擴增。

Facebook開源看圖問答模型Pythia:拿下VQA比賽冠軍就靠它

每一個子產品的優化,都帶來了模型性能的提升。

BTW,Facebook參賽隊伍和架構的名字都别有深意。

隊伍的名字——A-STAR,跟星星沒什麼關系,它是意思是能看、說話、行動、推理的智能體(Agents that See, Talk, Act, and Reason)

架構名字Pythia,也就是希臘神話中的皮提亞,德爾菲阿波羅神廟中的女祭司。女祭司的一項重要工作嘛,就是回答問題。

Facebook開源看圖問答模型Pythia:拿下VQA比賽冠軍就靠它

如果你也想搭一個會看圖回答問題的模型,收好這份paper:

Pythia v0.1: the Winning Entry to the VQA Challenge 2018

*Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh

https://arxiv.org/pdf/1807.09956.pdf

以及開源代碼:

https://github.com/facebookresearch/pythia

為它打下基礎的Bottom-Up and Top-Down Attention:

https://github.com/hengyuan-hu/bottom-up-attention-vqa

原文釋出時間為:2018-07-29

本文來自雲栖社群合作夥伴“

量子位

”,了解相關資訊可以關注“量子位”。

繼續閱讀