一、計算機視覺能解決那些問題——分類、檢測、分割

分割是對像素力度進行分析,像PS一樣每個像素都精确到,是最難的問題
如果把每個人畫個框這叫目标檢測,多個物體多個種類分别畫框
如果給每個像素進行分類稱之為語義分割
如果把不同的物體分别分割出來稱之為執行個體分割
(語義分割同一種物體會分為一起,執行個體分割将同個物體區分開來)
關鍵點檢測:
人體的關節檢測連成像火柴人
二、計算機視覺問題彙總:
(1)圖像分類問題:
(2)不同物體畫框框框出來:目标檢測問題
(3)同種種類的貓和狗區分出來:語義分割問題(像素進行單獨分類)
(4)不同的貓和狗個體分割出來:執行個體分割
(5)人體姿态的關鍵點檢測:
可以判斷人體在做些什麼:
三、深度學習三大馬車
1.算力:cpu、gpu、tpu、fpga。。。
2.資料:海量标注好,結構化的資料
imageNet資料集就是一個具有海量圖像分類的資料集
3.算法:如何訓練一個很深、高效、防止過拟合的模型
imageNet的算法比賽,錯誤率的變化:
AlexNet:首次用卷積神經網絡
ResNet:深度殘差網絡,通過殘差結構可以訓練非常深的卷積神經網絡,不再懼怕深度(首次超過人類水準)
不同模型的計算量、參數數量以及準确率之間的關系:
圈越大表示參數量越多
圓心越靠右表示計算量越大
圓心越靠上準确率越高
可以看到Resnet系列和inception-v3都表現不錯
而VGG比較臃腫
上面是分類的介紹
四、目标檢測方法
在目标檢測領域的方法主要兩種:
1.兩階段:先提取候選框,在對每一個候選框甄别,把置信度較高的框篩選出來,得出最後的結果(速度慢)
如Faster R-CNN要提取兩千多個候選框,明顯不會出現2000多個物體,算力和時間被消耗,但是準确率比較高
2.單階段方法:不需要提取候選框,直接把圖像喂進去就能得到結果
紅色的具有重要意義的模型:
五、參考資料
http://cs231n.stanford.edu/