Cityscapes資料集與COCO資料集
對兩個公開資料集的簡要概述。
文章目錄
- Cityscapes資料集與COCO資料集
- Cityscapes資料集
- COCO資料集
-
- info字段
- images字段
- license字段
- categories字段
- annotation字段
- 總結
Cityscapes資料集
Cityscapes是關于城市街道場景的語義了解圖檔資料集,它主要包含來自50個不同城市的街道場景,擁有5000張在城市環境中駕駛場景的高品質像素級注釋圖像(其中2975 用來訓練,500用來驗證,1525用來測試,共有19個類别)。樣本資料都在gtFine檔案夾和leftlmg8bit檔案夾内。leftImg8bit檔案夾有三個子目錄:test,train以及val。這三個子目錄的圖檔又以城市為單元來存放。gtFine下面也是分為train,test以及val,不同的是,在城市子目錄下面,每張樣本圖檔對應有6個标注檔案,如下所示:

xxx_instanceIds.png是用來做執行個體分割訓練用的,而xxx_labelsIds.png是語義分割訓練需要的。它們的像素值就是class值。而最後一個檔案xxx_polygons.json是用labelme工具标注後所生成的檔案,裡面主要記錄了每個多邊形标注框上的點集坐标。xxx_gtFine_instanceTrainIds.png和xxx_gtFine_labelTrainIds.png是生成的實際上這5000張精細标注的圖檔有34類,但訓練時可能隻想關心其中19類(0~18)。是以需要做一個映射來将34類中感興趣的類别映射到19類中,其它不感興趣的類别(ignore_label)就直接設成255。
COCO資料集
- 以目标檢測為例:其注釋檔案中的内容就是一個字典資料結構,包括以下5個key-value對。
Cityscapes資料集與COCO資料集Cityscapes資料集與COCO資料集Cityscapes資料集COCO資料集總結
info字段
如上圖所示包含description,url,version, year, contribution,date_created等基本資訊。
images字段
包括下圖中的内容,對應了每張圖檔的詳細資訊,其中的id号是被配置設定的唯一id。
license字段
包括下圖中的内容,裡面集合了不同類型的licenses,并在images中按照id号被引用,基本不參與到資料解析過程中。
categories字段
包括下圖中的内容。其中supercategory是父類,name是子類,id是類别id(按照子類統計)。比如下圖中所示的。COCO資料集共計有80個類别(按照name計算的)。
annotation字段
包括下面内容,每個序号對應一個注釋,一張圖檔上可能有多個注釋。
- category_id:該注釋的類别id;
- id:目前注釋的id号;
- image_id:該注釋所在的圖檔id号;
- area:區域面積;
- bbox:目标的矩形标注框;
- iscrowd:0或1。0表示标注的單個對象,此時segmentation使用polygon表示;1表示标注的是一組對象,此時segmentation使用RLE格式。
- segmentation:若使用polygon标注時,則記錄的是多邊形的坐标點,連續兩個數值表示一個點的坐标位置,是以此時點的數量為偶數若使用RLE格式(Run Length Encoding(行程長度壓縮算法))
總結
本文對兩個常用的公開資料集進行了簡單總結。Cityscapes和COCO均廣泛應用于語義分割,執行個體分割以及全景分割的架構實驗中。