天天看點

論文閱讀:LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling

文章目錄

    • 1 摘要
    • 2 亮點
      • 2.1 LSTM-CF網絡總體思路
      • 2.2 LSTM-CF網絡總體結構
    • 3 部分結果
      • 3.1 分割的資料對比
        • 3.1.1 LSTM-CF網絡各子產品的影響
        • 3.1.2 各網絡的資料對比
      • 3.2 分割的效果對比
    • 4 結論
      • 4.1 優勢
      • 4.2 不足
    • 5 參考資料

1 摘要

(如果之前沒有了解過RNN處理語義分割任務時,建議先看這篇文章:論文筆記:ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks,因為這篇文章也是參考了ReNet的思路。)

本文提出一個新穎的網絡結構LSTM-CF用于RGB-D圖像(有關RGB-D圖像的資料戳這!)的分割,該網絡同時使用CNN處理RGB-D的RGB圖像和深度圖像,再将二者進行特征融合使用RNN處理,達到一個對RGB-D圖像的分割。由于引入了RNN整合上下文資訊,在SUNRGBD資料集和NYUDv2資料集得到當時最好的效果。

2 亮點

2.1 LSTM-CF網絡總體思路

LSTM-CF網絡的總體思路其實很簡單,就是将RGB-D圖像分别進行兩部分處理,如下圖:

論文閱讀:LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling

第一部分,通過CNN對RGB圖進行特征提取,然後再通過雙向RNN(BRNN)對圖像每一列進行掃描整合上下文資訊;第二部分,對深度圖像使用CNN特征提取再通過BRNN每一列進行掃描整合上下文資訊。最後将經過BRNN垂直掃描處理的特征圖拼接,再進行BRNN的水準掃描處理,再經過全卷積層得到分割結果。

2.2 LSTM-CF網絡總體結構

LSTM-CF網絡中,分為兩大部分:

① 深度圖像通過編碼成HHA圖像(有關HHA圖像可以參考:RGB-D圖像識别中的HHA是什麼?),再通過三個卷積核對HHA圖像進行卷積,這三個卷積其實就是提取HHA的特征資訊,而由于HHA本身存在的資訊量較少,是以使用了3個卷積,然後再使用BRNN對HHA特征圖像進行垂直方向的掃描。

② RGB圖像資訊豐富,需要經過若幹個卷積層進行特征提取,并且在Conv5後面和Conv2和Conv3最後一層進行特征拼接,這樣做是為了進一步提高和豐富特征資訊,再使用BRNN對HHA特征圖像進行垂直方向的掃描。

而經過這垂直掃描得到的兩部分特征圖再進行一個特征拼接,再進行一次水準掃描,進一步整合上下文資訊,得到的結果和Conv7卷積的結果進行拼接。可見,此處并沒用使用到池化層,池化層的作用是擷取更大的感受野去整合上下文資訊,而這裡使用了RNN進行整合上下文資訊,替代了池化層的作用。

論文閱讀:LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling

3 部分結果

3.1 分割的資料對比

3.1.1 LSTM-CF網絡各子產品的影響

論文閱讀:LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling

上圖為通過去掉LSTM-CF網絡中不同的子產品然後測試其結果,可見RGB圖像卷積這條路徑對全局的影響最大,而深度圖像的作用在于在RGB圖像卷積的基礎上進一步提高精度。

3.1.2 各網絡的資料對比

論文閱讀:LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling

上圖為各個網絡在NYUDv2資料集中的對比。

3.2 分割的效果對比

論文閱讀:LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling

上圖顯示的第一行為輸入圖像,第二行為真值,第三行為LSTM-CF的分割結果。

4 結論

本文提出通過RNN整合RGB和深度圖像的上下文語義資訊,在SUNRGBD資料集和NYUDv2資料集上均表現很好,說明RNN可以以不同的方式跟CNN結合,作者希望能夠繼續探索更多的RNN的方法用于處理語義分割任務中。

4.1 優勢

① 使用RNN整合RGB圖像和深度圖像,能夠聯系上下文資訊,提高準确率。

4.2 不足

(占個位)

5 參考資料

(1)論文連結:https://arxiv.org/abs/1604.05000

(2)有關RGB-D圖像的資料戳這!

(3)RGB-D圖像識别中的HHA是什麼?

繼續閱讀