天天看點

Dataset之Pascal:Pascal競賽及其Pascal VOC(VOC 2012、VOC 2007) 資料集的簡介、下載下傳、使用方法詳細攻略(一)

目錄

Pascal 競賽

1、PASCAL VOC競賽任務

2、Pascal 競賽的曆史

3、Pascal  VOC等類似大型官方資料集的由來

Pascal VOC 資料集的簡介

1、VOC2007和VOC2012資料集

Pascal VOC 資料集的下載下傳

Pascal VOC 資料集的使用方法

      PASCAL:pattern analysis, statistical modelling and computational learning

      VOC:visual object classes

      Pascal 的全程是 Pattern Analysis, Statical Modeling and Computational Learning。

      PASCAL VOC 挑戰賽是視覺對象的分類識别和檢測的一個基準測試,提供了檢測算法和學習性能的标準圖像注釋資料集和标準的評估系統。從2005年至今,該組織每年都會提供一系列類别的、帶标簽的圖檔,挑戰者通過設計各種精妙的算法,僅根據分析圖檔内容來将其分類,最終通過準确率、召回率、效率來一決高下。如今,挑戰賽和其所使用的資料集已經成為了對象檢測領域普遍接受的一種标準。更多的自述和背景故事可以參見這篇官方提供的說明檔案。

官網位址:

http://pascallin.ecs.soton.ac.uk/challenges/VOC/

Visual Object Classes Challenge 2012 (VOC2012)

The PASCAL Visual Object Classes (VOC) Challenge

Dataset之Pascal:Pascal競賽及其Pascal VOC(VOC 2012、VOC 2007) 資料集的簡介、下載下傳、使用方法詳細攻略(一)

1、PASCAL VOC的挑戰任務

Classification/Detection Competitions

分類:對于每一個分類,判斷該分類是否在測試照片上存在(共20類);

檢測:檢測目标對象在待測試圖檔中的位置并給出邊界框坐标(bounding box)

Segmentation Competition

分割:Object Segmentation

Action Classification Competition

人體動作識别(Action Classification)

ImageNet Large Scale Visual Recognition Competition

ImageNet大型視覺識别大賽

Person Layout Taster Competition

人體布局(Human Layout)

http://host.robots.ox.ac.uk/pascal/VOC/

      起初Pascal 并不像現在這樣完善和全面,剛開始委員會隻提供了4個類别的圖像,在2006年的時候增加到了10個類,2007年開始則增加到了20個類;同樣是在2007年,加入了對人體輪廓布局(Person layout)的測試;測試圖像的數量也由起初的1578張增加到了2007年高峰時期的9963張,随後的一年則出現了大幅下降,直到2010年圖庫數量重新達到高峰,并與2011年穩定在11530張;期間于2009年開始圖庫的構成發生了變化,這之前每年委員會都會重新制作圖庫,選擇新的照片來構成新的資料集。而2009年開始則采用擴增的方式,隻在原有圖庫的基礎上加入新的圖檔;再有一點就是在2010年加入的動作識别項目和 Other 分類。

      計算機視覺裡面很大一塊是在做物體的識别、檢測還有分類(object recognition, detection and classification)。幾乎在每一個應用領域都需要用到這三項功能,是以能否順利的完成這三個功能,對檢驗一個算法的正确性和效率來說是至關重要的。是以每一個算法的設計者都會運用自己搜集到的場景圖檔對算法進行訓練和檢測,這個過程就逐漸的形成了資料集(dataset)。

     而不幸的是,這樣形成的資料集存在着很大的偏向性。因為就算是作者可以的随機搜集圖檔,在篩選的時候也存在着作者對事物的主管判斷,而這種判斷在其他人眼中就會覺得不公平。同時為了比較不同的算法效率,設計者也會運用資料集來進行性能比較。是以如果你看的論文足夠多的話,你會發現,大家的實驗部分都會說:在某個資料集上我的算法是最牛X的;在某某資料集上我的算法和目前最牛X的其他地方差不多,但速度快/準确率高/誤報率低;雖然我的算法在某資料集一般,但幾個資料集做一下平均,我的最牛X……是以這些由算法設計者們建立的資料集并不是那麼的有說服性。

繼續閱讀