一、计算机视觉能解决那些问题——分类、检测、分割

分割是对像素力度进行分析,像PS一样每个像素都精确到,是最难的问题
如果把每个人画个框这叫目标检测,多个物体多个种类分别画框
如果给每个像素进行分类称之为语义分割
如果把不同的物体分别分割出来称之为实例分割
(语义分割同一种物体会分为一起,实例分割将同个物体区分开来)
关键点检测:
人体的关节检测连成像火柴人
二、计算机视觉问题汇总:
(1)图像分类问题:
(2)不同物体画框框框出来:目标检测问题
(3)同种种类的猫和狗区分出来:语义分割问题(像素进行单独分类)
(4)不同的猫和狗个体分割出来:实例分割
(5)人体姿态的关键点检测:
可以判断人体在做些什么:
三、深度学习三大马车
1.算力:cpu、gpu、tpu、fpga。。。
2.数据:海量标注好,结构化的数据
imageNet数据集就是一个具有海量图像分类的数据集
3.算法:如何训练一个很深、高效、防止过拟合的模型
imageNet的算法比赛,错误率的变化:
AlexNet:首次用卷积神经网络
ResNet:深度残差网络,通过残差结构可以训练非常深的卷积神经网络,不再惧怕深度(首次超过人类水平)
不同模型的计算量、参数数量以及准确率之间的关系:
圈越大表示参数量越多
圆心越靠右表示计算量越大
圆心越靠上准确率越高
可以看到Resnet系列和inception-v3都表现不错
而VGG比较臃肿
上面是分类的介绍
四、目标检测方法
在目标检测领域的方法主要两种:
1.两阶段:先提取候选框,在对每一个候选框甄别,把置信度较高的框筛选出来,得出最后的结果(速度慢)
如Faster R-CNN要提取两千多个候选框,明显不会出现2000多个物体,算力和时间被消耗,但是准确率比较高
2.单阶段方法:不需要提取候选框,直接把图像喂进去就能得到结果
红色的具有重要意义的模型:
五、参考资料
http://cs231n.stanford.edu/