天天看點

視覺問答領域又一力作!斯坦福大學教授釋出圖像場景圖問答資料集 GQA

雷鋒網 AI 科技評論:GQA 是斯坦福大學教授 Christopher Manning 及其學生 Drew Hudson 一同打造的全新圖像場景圖問答資料集,旨在推動場景了解與視覺問答研究領域的進步。

視覺問答領域又一力作!斯坦福大學教授釋出圖像場景圖問答資料集 GQA

據 Christopher Manning 教授及其學生 Drew Hudson 調查後發現,現有的視覺問答資料集主要存在兩種缺陷:一個是基準失誤,當中包括了基于語言先驗的偏見、視覺偏見、過分關注顯着對象、來源有誤、對象缺位、答案不合邏輯、模型反應不一緻等;一個是推理資料集的數量很有限。

為此,他們開發了一個用于對現實世界的圖像進行視覺推理與綜合回答的全新資料集 GQA,該資料集包含高達 20M 的各種日常生活圖像,主要源自于 COCO 和 Flickr。每張圖像都與圖中的物體、屬性與關系的場景圖(scene graph)相關,建立上基于最新清潔版本的 Visual Genome。此外,每個問題都與其語義的結構化表示相關聯,功能程式上指定必須采取一定的推理步驟才能進行回答。

GQA 資料集的許多問題涉及多種推理技巧、空間了解以及多步推理,比起人們先前常用的視覺回答資料集,更具有挑戰性。他們保證了資料集的平衡性,嚴格控制不同問題組的答案分布,以防止人們通過語言和世界先驗知識進行有據猜測。

視覺問答領域又一力作!斯坦福大學教授釋出圖像場景圖問答資料集 GQA

最後,他們通過一套全新的名額來完善資料集,該名額不僅能測試模型的精确度,還可預測模型響應的一緻性、有效性于合理性,進而幫助我們更了解模型背後的運作原理。雖說問題是自動生成的,但由于生成主要基于自然語言衆包場景圖,是以在文法性、多樣性和慣用性上将有所保障。

為了鼓勵更多人嘗試使用 GQA 資料集,他們将從 2019 年 2 月 開始舉辦相關比賽。他們希望 GQA 成為開發更強大和更有說服力的推理模型的關鍵助力,進而推動場景了解與視覺問答研究領域的進步。

via https://cs.stanford.edu/people/dorarad/gqa/download.html

雷鋒網(公衆号:雷鋒網) AI 科技評論                                                     雷鋒網

繼續閱讀