PASCAL VOC 2012 Segmentation Competition
Pascal VOC数据集:视觉识别类竞赛鼻祖,包含了物体分类、目标检测、图像分割等任务。后续的ImageNet竞赛的任务设置基本上沿用的它的设定。给定的自然图片,从中识别出特定物体。
待识别的物体有20类:
- person (人)
- cat, bird, cow, dog, horse, sheep (动物)
- aeroplane, bicycle, poat, bus, car, motorbike, train (车辆)
- bottle, chair, dining table, potted plant, sofa, tv/monitor (室内)
Visual Object Classes Challenge 2012 (VOC2012)host.robots.ox.ac.uk
COCO 2018 Stuff Segmentation Task
MS COCO的全称是Microsoft Common Objects in Context,起源于是微软于 2014年出资标注的Microsoft COCO数据集,与ImageNet 竞赛一样,被视为是 计算机视觉领域最受关注和最权威的比赛之一。 而在ImageNet竞赛停办后,COCO竞赛就成为是当前物体识别、检测等领域的 一个最权威、 最重要的标杆,也是目前该领域在国际上唯一能汇集Google、微 软、Facebook以及国内外众多顶尖院校和优秀创新企业共同参与的大赛
Common Objects in Contextcocodataset.org
MSCOCO数据集:
- 80个类别
- COCO-stuff扩展集:172类别 其中 {Object:80, Stuff:91, Unknown:1}
- 主要用于实例级别分割(Instance-Level), 图片描述(Image Captioning)
Common Objects in Contextmscoco.org
BDD100K: A Latge-scale Diverse Driving Video Database
2018年5月伯克利大学AI实验室(BAIR)发布了目前最大规模、内容最具多样性的公开驾驶数据 集 BDD100K,同时设计了一个图片标注系统。 BDD100K 数据集包含10万段高清视频,每个视频约40秒,720p,30 fps 。每个视频的第10秒对关键帧 进行采样,得到10万张图片(图片尺寸:1280x720 ),并进行标注。
https://bair.berkeley.edu/blog/2018/05/30/bdd/bair.berkeley.edu
Cambridge-driving Labeled Video Database(CamVid)
CamVid是第一个具有目标类别语义标签的视频集合。 数据库提供32个ground truth语义标签,将每个像素与 语义类别之一相关联。 该数据库解决了对实验数据的需求,以定量评估新兴算法。 数据是从驾驶汽车的角度拍摄的。
http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/mi.eng.cam.ac.uk
Cityscapes Dataset
包含戴姆勒在内的三家德国单位联合提供,包含50多个城市的立体视觉数据;像素级标注; 提供算法评估接口。
Cityscapes:
- 30个标注
- 标注:5000张像素标注(pixel level),20,000张多边形标注(instance level)
- 辅助/自动驾驶中的语义场景理解
- 采集于50个城市
Semantic Understanding of Urban Street Sceneswww.cityscapes-dataset.com
Mapillary Vistas Dataset
Mapillary Vistas是世界上最大最多样化的像素精确和特定实例标注的街道级图像公开数据集。
Street-level imagery, powered by collaboration and computer visionwww.mapillary.com
ApolloScape Scene Parsing
百度公司提供的ApolloScape数据集将包括具有高分辨率图像和每像素标注的RGB视频,具有语义 分割的测量级密集3D点,立体视频和全景图像。 Scene Parsing数据集是ApolloScape的一部分,它为高级自动驾驶研究提供了一套工具和数据集。 场景解析旨在为图像中的每个像素或点云中的每个点分配类别(语义)标签。
Apollo Scapeapolloscape.auto