圖像語義分割正在逐漸成為計算機視覺及機器學習研究人員的研究熱點。大量應用需要精确、高效的分割機制,如:自動駕駛、室内導航、及虛拟/增強現實系統。這種需求與機器視覺方面的深度學習領域的目标一緻,包括語義分割或場景了解。本文對多種應用領域語義分割的深度學習方法進行概述。首先,我們給出本領域的術語及主要背景知識。其次,介紹主要的資料集及難點,以幫助研究人員找到合适的資料集和研究目标。之後,概述現有方法,及其貢獻。最後,給出提及方法的量化标準及其基于的資料集,接着是對于結果的讨論。最終,對于基于深度學習的語義分割,指出未來重點并得出結論。
細粒度分類:同一類中不同子類物體間的分類。
難點:受視角、背景、遮擋等因素影響較大,類内差異較大、類間差異較小。
基于深度學習的物體分類可以大緻分為4類:分類,對齊,不同特征相似性的判斷,分區
使用通用DCNN(Deep Convolutional Neural Network,深度卷積神經網絡)進行細粒度分類;
先使用DCNN進行部件定位,之後進行部位對齊;
使用多個DCNN對細粒度識别中的相似特征進行判别;
使用注意力模型定位區分性強的區域
詞包模型:在介紹詞包模型前,我們先簡單回憶下自然語言進行中的詞包模型。詞包在自然語言進行中是一項非常流行的代表文檔的技術,它忽略了文檔中詞的順序。例如,在這個模型下,"a good book"和"book good a"是一樣的。詞包模型應用基于詞典的模組化方法,每個文檔像一個包(是以忽略了次序),包含了一些來着詞典的詞。計算機視覺的研究人員用了一個相似的思想來表示圖像(這的圖像可能特指一個特殊的對象,例如一張汽車的圖像)。例如,把一張圖像當做一個文檔,從圖像中提取出來的特征就相當于詞(通常還需要一些額外的操作,下面會提到)。詞包表示法可以作為進一步圖像處理的基本步驟,如對象分類。
1.底層特征提取
a.基于興趣點檢測:像素點、邊緣、角點、一般會有一定的幾何不變性,用的比較多的有Harris角點、FAST(feature from accelerated segment test)、LOG(laplacian of guassian)、DOG(difference of gaussian)。
b.密集點提取:從圖像中按照固定步長、尺度提取出大量的局部特征描述如SIFT、HOG、LBP(local binary pattern)
2.特征編碼
底層特征包含備援和噪聲,需要一種特征變換算法對底層進行編碼,進而獲得更加具有區分性、更加魯棒的特征表達,重要的特征編碼算法包括:向量量化編碼,核詞典編碼、稀疏編碼、局部線性限制編碼、顯著性編碼、Fisher向量編碼、超向量編碼。
向量量化編碼:是通過一種量化的思想,使用一個較小的特征集合(視覺詞典)來對底層特征進行描述,達到特征壓縮的目的.向量量化編碼隻在最近的視覺單詞上響應為1,因而又稱為硬量化編碼、硬投票編碼,這意味着向量量化編碼隻能對局部特征進行很粗糙的重構. 但向量量化編碼思想簡單、直覺,也比較容易高效實作。
局限性:在實際圖像中,圖像局部特征常常存在一定的模糊性,即一個局部特征可能和多個視覺單詞差别很小,這個時候若使用向量量化編碼将隻利用距離最近的視覺單詞,而忽略了其他相似性很高的視覺單詞。
軟量化編碼(又稱核視覺詞典編碼)算法,局部特征不再使用一個視覺單詞描述,而是由距離最近的犓個視覺單詞權重後進行描述,有效解決了視覺單詞的模糊性問題,提高了物體識别的精度.
稀疏編碼通過最小二乘重構加入稀疏限制來實作在一個過完備基上響應的稀疏性.得到一個高維的高度稀疏的特征表達,大大提高了特征表達的線性可分性,僅僅使用線性分類器就得到了當時最好的物體分類結果,将物體分類的研究推向了一個新的高度上。
局限性:稀疏編碼存在一個問題,即相似的局部特征可能經過稀疏編碼後在不同的視覺單詞上産生響應,這種變換的不連續性必然會産生編碼後特征的不比對,影響特征的區分性能.
局部線性限制編碼它通過加入局部線性限制,在一個局部流形上對底層特征進行編碼重構,這樣既可以保證得到的特征編碼不會有稀疏編碼存在的不連續問題,也保持了稀疏編碼的特征稀疏性。
顯著性編碼引入了視覺顯著性的概念,如果一個局部特征到最近和次近的視覺單詞的距離差别很小,則認為這個局部特征是不“顯著的”,進而編碼後的響應也很小。編碼速度也比稀疏編碼快很多
FISHER向量編碼同時融合了産生式模型和判别式模型的能力,與傳統的基于重構的特征編碼方法不同,它記錄了局部特征與視覺單詞之間的一階差分和二階差分
超向量編碼則直接使用局部特征與最近的視覺單詞的差來替換之前簡單的硬投票. 這種特征編碼方式得到的特征向量表達通常是傳統基于重構編碼方法的M倍(M是局部特征的次元).
3.特征彙聚
空間特征彙聚是特征編碼後進行的特征集整合操作,通過對編碼後的特征,每一維都取其最大值或者平均值,得到一個緊緻的特征向量作為圖像的特征表達. 這一步得到的圖像表達可以獲得一定的特征不變性,同時也避免了使用 特征集進行圖像表達的高額代價. 最大值彙聚在絕大部分情況下的性能要優于平均值彙聚,也在物體分類中使用最為廣泛。由于圖像通常具有極強的空間結構限制,空間金字塔比對(spatial pyramid matching,SPM)提出将圖像均勻分塊,然後每個區塊裡面單獨做特征彙聚操作并将所有特征向量拼接起來作為圖像最終的特征表達.
術語及背景概念
語義分割不是一個孤立的問題,而是圖像推理從粗粒度到細粒度的過程中一個自然的步驟。
- 分類(classification),對整個輸入進行預測,即預測圖像中是什麼物體、或者給出物體的連結清單如果圖中有多個物體。
- 定位或檢測(localization and detection)是細粒度推測的進一步發展,不隻提供物體的類别,同時提供這些類的位置,例如:圖心或邊界框。
- 語義分割(semantic segmentation)進行稠密預測(dense prediction)推斷每個像素點的類标簽,通過這種方式,區域或物體内的像素點被标記為相應的類别。
- 物體分割(instance segmentation):分别标記同一類的不同物體,甚至是基于部分的分割(part based segmentation),将已經分割出的類進一步分割為底層的組成部分。
像素分類問題可以被簡化為以下問題:對于随機變量集合X={x1,x2,...,xn}X={x1,x2,...,xn}中的任一進制素,尋找一種方法來配置設定類标簽L={l1,l2,...,lk}L={l1,l2,...,lk}。每個類标簽ll代表不同的類或物體,例如,飛機、汽車、交通标志或者背景。标簽空間有kk中可能的狀态,其通常會被拓展到k+1k+1并且将l0l0作為背景或者空類。通常XX為W×H=NW×H=N的2D2D圖檔中的像素值。
轉載于:https://www.cnblogs.com/klausage/p/10322311.html