李飛飛計算機視覺-自用筆記(六)
- 11 圖像分割、定位、檢測
-
- 11.1 語義分割
- 11.2 圖像分類+定位
- 11.3 對象識别
- 11.4 物體分割
- 12 可視化和了解卷積網絡
11 圖像分割、定位、檢測
11.1 語義分割
方法1:滑動視窗
問題:效率低下
方法2:全連接配接卷積網絡
問題:計算量太大,耗費記憶體
方法3:卷積與下采樣結合
上采樣:按某規則擴充像素
轉置卷積:不再是對應元素與卷積核做内積,而是用輸入做權重處理卷積核,使輸出是帶有權重的卷積核的疊加
例:

11.2 圖像分類+定位
通常有兩個全連接配接層,其中一個輸出類别及得分,另一個輸出坐标及圖像的長、寬
分别對應兩個損失函數,如Softmax和L2 Loss
11.3 對象識别
對與固定幾個類别,根據輸入的圖檔,每當出現目标對象時,框處目标對象并對其進行預測
方法:滑動視窗;選中某些區域後對其進行預測,如果目前的類别中沒有此區域所對應的内容,新增一個“背景”類,并将目前區域加入其中
問題1:如何選擇區域
方法:使用候選區域,建立點狀的候選區域,建立候選清單,如目标檢測會給出2000個候選區域
問題2:候選區域尺寸不同
方法:由于候選區域要作為同一個卷積神經網絡的輸出,故應保證他們的輸入大小相同,此時需要對這些資料進行固定尺寸的切分
Fast R-CNN:對于輸入,不再按興趣區域處理,而是通過卷積得到整個圖像的高分辨率特征映射;備選區域的選擇則會基于備選區域投影到卷積特征映射,之後從卷積特征映射提取屬于備選區域的卷積塊;之後可通過全連接配接層輸入分類結果
Faster R-CNN:在Fast R-CNN中用固定函數計算備選區域成為算法的瓶頸;分離備選區域:工作于卷積特征的上層,在網絡内部預測自己的備選區域;多任務損失以及多任務訓練網絡;
前饋模型:YOLO/SSD-借助大型卷積網絡嘗試将問題用回歸解決
YOLO:You Only Look Once
SSD:Single Shot Detection
将輸入圖像分成網格,如7 * 7的網格,在每個單元裡,設計一系列基本邊界框,預測目标物體
1.預測邊界框偏移,進而預測出邊界框與目标物體的位置的偏差
2.預測目标對應類别的分數,每個邊界框都會對應一個類别分數
11.4 物體分割
像是語義分割和目标檢測的結合;不是預測出目标物體的邊框,而是将目标與背景分割的情況下同時預測出目标的類别
Mask R-CNN:姿态估計
12 可視化和了解卷積網絡
第一層:可視化卷積核(模拟人類視覺系統初始階段的工作)
最後一層1:通過神經網絡的特征空間尋找最近鄰
最後一層2:降維;如PCA、t-SNE
中間層:如何最大限度激活不同的特征和神經元
個人了解:我們并不知道對于一個神經網絡輸入圖像後,網絡所學習到的特征具體是什麼,這個學習過程是自動的、抽象的,但又不是不可研究的,探究網絡所學到的特征究竟表示什麼、是什麼,可能更有利于深度學習的進一步發展并真正的了解深度學習
方法1:部分遮擋;導緻神經網絡預測分數的急劇變化,遮擋部分對神經網絡的分類決策可能起到至關重要的作用
方法2:顯著圖
方法3:引導式反向傳播;不需要正确計算梯度,而是跟蹤整個神經網絡中正面積極的影響
方法4:梯度上升法
正則化:一定程度上會使看起來無規則的特征圖更加相似于自然圖像高斯模糊:同樣可以強化自然圖像的效果
多模态問題:一個類型的圖檔可能有多種形态
Fooling Images/Adversarial Examples:
選取一些任意的圖像,通過神經網絡将檢測目标添加其他目标的特征,進而将檢測目标分類為其他類型,但原圖并不會發生視覺上的變化
DeepDream(基于梯度的圖像優化):放大存在的特征
1.讓輸入圖像通過神經網絡運作到某一層
2.進行反向傳播并設定該層的梯度等于激活值
3.反向傳播到圖像并不斷更新圖像
特征反演:
1.通過神經網絡運作一張圖像,記錄其中一個圖像的特征值
2.根據特征表示重構圖像
3.最小化捕獲到的特征向量之間的距離
全變差正則化:将左右相鄰像素間差異拼湊成剩下相鄰的,以加強生成圖像中的平滑度
紋理合成:
對于給定紋理的輸入圖像(小尺度),生成相同紋理的圖像(大尺度)
近鄰法:可不用神經網絡,按照掃描線,一次一個像素地周遊生成圖像,根據已經生成的像素檢視目前像素周圍的鄰域,往輸入圖像中複制像素
使用神經網絡:格拉姆矩陣;選取輸入的紋理傳遞給卷積神經網絡,提取它們在卷積網絡某層的卷積特征;使用激活映射圖計算輸入紋理的映射,然後選取輸入特征的兩個不同列形成特征矩陣;對網格中不同點所對應的特征向量取平均值,得到格拉姆矩陣(協方差矩陣同樣有效,但計算成本較高);通過梯度上升來合成與原始圖像紋理相比對的新圖像;計算Loss;反向傳播;重複
風格遷移:
兩張圖像作為輸入,其中一張作為内容圖像,引導生成圖像的主體;另一張作為風格圖像,負責生成圖像的紋理或風格;通過最小化特征圖像的特征重構損失以及風格圖像的格拉姆矩陣損失,得到風格遷移圖像
缺點:效率低下;4K圖像的正向傳播和反向傳播計算量巨大
解決方法:單獨訓練一個神經網絡來進行風格遷移的工作