文章目錄
-
- 1 摘要
- 2 亮點
-
- 2.1 LSTM-CF網絡總體思路
- 2.2 LSTM-CF網絡總體結構
- 3 部分結果
-
- 3.1 分割的資料對比
-
- 3.1.1 LSTM-CF網絡各子產品的影響
- 3.1.2 各網絡的資料對比
- 3.2 分割的效果對比
- 4 結論
-
- 4.1 優勢
- 4.2 不足
- 5 參考資料
1 摘要
(如果之前沒有了解過RNN處理語義分割任務時,建議先看這篇文章:論文筆記:ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks,因為這篇文章也是參考了ReNet的思路。)
本文提出一個新穎的網絡結構LSTM-CF用于RGB-D圖像(有關RGB-D圖像的資料戳這!)的分割,該網絡同時使用CNN處理RGB-D的RGB圖像和深度圖像,再将二者進行特征融合使用RNN處理,達到一個對RGB-D圖像的分割。由于引入了RNN整合上下文資訊,在SUNRGBD資料集和NYUDv2資料集得到當時最好的效果。
2 亮點
2.1 LSTM-CF網絡總體思路
LSTM-CF網絡的總體思路其實很簡單,就是将RGB-D圖像分别進行兩部分處理,如下圖:

第一部分,通過CNN對RGB圖進行特征提取,然後再通過雙向RNN(BRNN)對圖像每一列進行掃描整合上下文資訊;第二部分,對深度圖像使用CNN特征提取再通過BRNN每一列進行掃描整合上下文資訊。最後将經過BRNN垂直掃描處理的特征圖拼接,再進行BRNN的水準掃描處理,再經過全卷積層得到分割結果。
2.2 LSTM-CF網絡總體結構
LSTM-CF網絡中,分為兩大部分:
① 深度圖像通過編碼成HHA圖像(有關HHA圖像可以參考:RGB-D圖像識别中的HHA是什麼?),再通過三個卷積核對HHA圖像進行卷積,這三個卷積其實就是提取HHA的特征資訊,而由于HHA本身存在的資訊量較少,是以使用了3個卷積,然後再使用BRNN對HHA特征圖像進行垂直方向的掃描。
② RGB圖像資訊豐富,需要經過若幹個卷積層進行特征提取,并且在Conv5後面和Conv2和Conv3最後一層進行特征拼接,這樣做是為了進一步提高和豐富特征資訊,再使用BRNN對HHA特征圖像進行垂直方向的掃描。
而經過這垂直掃描得到的兩部分特征圖再進行一個特征拼接,再進行一次水準掃描,進一步整合上下文資訊,得到的結果和Conv7卷積的結果進行拼接。可見,此處并沒用使用到池化層,池化層的作用是擷取更大的感受野去整合上下文資訊,而這裡使用了RNN進行整合上下文資訊,替代了池化層的作用。
3 部分結果
3.1 分割的資料對比
3.1.1 LSTM-CF網絡各子產品的影響
上圖為通過去掉LSTM-CF網絡中不同的子產品然後測試其結果,可見RGB圖像卷積這條路徑對全局的影響最大,而深度圖像的作用在于在RGB圖像卷積的基礎上進一步提高精度。
3.1.2 各網絡的資料對比
上圖為各個網絡在NYUDv2資料集中的對比。
3.2 分割的效果對比
上圖顯示的第一行為輸入圖像,第二行為真值,第三行為LSTM-CF的分割結果。
4 結論
本文提出通過RNN整合RGB和深度圖像的上下文語義資訊,在SUNRGBD資料集和NYUDv2資料集上均表現很好,說明RNN可以以不同的方式跟CNN結合,作者希望能夠繼續探索更多的RNN的方法用于處理語義分割任務中。
4.1 優勢
① 使用RNN整合RGB圖像和深度圖像,能夠聯系上下文資訊,提高準确率。
4.2 不足
(占個位)
5 參考資料
(1)論文連結:https://arxiv.org/abs/1604.05000
(2)有關RGB-D圖像的資料戳這!
(3)RGB-D圖像識别中的HHA是什麼?