論文閱讀：LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling

2023-06-24 05:59:24

文章目錄

- 1 摘要
- 2 亮點
- - 2.1 LSTM-CF網絡總體思路
  - 2.2 LSTM-CF網絡總體結構
- 3 部分結果
- - 3.1 分割的資料對比
  - - 3.1.1 LSTM-CF網絡各子產品的影響
    - 3.1.2 各網絡的資料對比
  - 3.2 分割的效果對比
- 4 結論
- - 4.1 優勢
  - 4.2 不足
- 5 參考資料

1 摘要

（如果之前沒有了解過RNN處理語義分割任務時，建議先看這篇文章：論文筆記：ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks，因為這篇文章也是參考了ReNet的思路。）

本文提出一個新穎的網絡結構LSTM-CF用于RGB-D圖像（有關RGB-D圖像的資料戳這！）的分割，該網絡同時使用CNN處理RGB-D的RGB圖像和深度圖像，再将二者進行特征融合使用RNN處理，達到一個對RGB-D圖像的分割。由于引入了RNN整合上下文資訊，在SUNRGBD資料集和NYUDv2資料集得到當時最好的效果。

2 亮點

2.1 LSTM-CF網絡總體思路

LSTM-CF網絡的總體思路其實很簡單，就是将RGB-D圖像分别進行兩部分處理，如下圖：

論文閱讀：LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling

第一部分，通過CNN對RGB圖進行特征提取，然後再通過雙向RNN（BRNN）對圖像每一列進行掃描整合上下文資訊；第二部分，對深度圖像使用CNN特征提取再通過BRNN每一列進行掃描整合上下文資訊。最後将經過BRNN垂直掃描處理的特征圖拼接，再進行BRNN的水準掃描處理，再經過全卷積層得到分割結果。

2.2 LSTM-CF網絡總體結構

LSTM-CF網絡中，分為兩大部分：

① 深度圖像通過編碼成HHA圖像（有關HHA圖像可以參考：RGB-D圖像識别中的HHA是什麼？），再通過三個卷積核對HHA圖像進行卷積，這三個卷積其實就是提取HHA的特征資訊，而由于HHA本身存在的資訊量較少，是以使用了3個卷積，然後再使用BRNN對HHA特征圖像進行垂直方向的掃描。

② RGB圖像資訊豐富，需要經過若幹個卷積層進行特征提取，并且在Conv5後面和Conv2和Conv3最後一層進行特征拼接，這樣做是為了進一步提高和豐富特征資訊，再使用BRNN對HHA特征圖像進行垂直方向的掃描。

而經過這垂直掃描得到的兩部分特征圖再進行一個特征拼接，再進行一次水準掃描，進一步整合上下文資訊，得到的結果和Conv7卷積的結果進行拼接。可見，此處并沒用使用到池化層，池化層的作用是擷取更大的感受野去整合上下文資訊，而這裡使用了RNN進行整合上下文資訊，替代了池化層的作用。

論文閱讀：LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling

3 部分結果

3.1 分割的資料對比

3.1.1 LSTM-CF網絡各子產品的影響

論文閱讀：LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling

上圖為通過去掉LSTM-CF網絡中不同的子產品然後測試其結果，可見RGB圖像卷積這條路徑對全局的影響最大，而深度圖像的作用在于在RGB圖像卷積的基礎上進一步提高精度。

3.1.2 各網絡的資料對比

論文閱讀：LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling

上圖為各個網絡在NYUDv2資料集中的對比。

3.2 分割的效果對比

論文閱讀：LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling

上圖顯示的第一行為輸入圖像，第二行為真值，第三行為LSTM-CF的分割結果。

4 結論

本文提出通過RNN整合RGB和深度圖像的上下文語義資訊，在SUNRGBD資料集和NYUDv2資料集上均表現很好，說明RNN可以以不同的方式跟CNN結合，作者希望能夠繼續探索更多的RNN的方法用于處理語義分割任務中。

4.1 優勢

① 使用RNN整合RGB圖像和深度圖像，能夠聯系上下文資訊，提高準确率。

4.2 不足

（占個位）

5 參考資料

（1）論文連結：https://arxiv.org/abs/1604.05000

（2）有關RGB-D圖像的資料戳這！

（3）RGB-D圖像識别中的HHA是什麼？

論文閱讀：LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling

文章目錄

1 摘要

2 亮點

2.1 LSTM-CF網絡總體思路

2.2 LSTM-CF網絡總體結構

3 部分結果

3.1 分割的資料對比

3.1.1 LSTM-CF網絡各子產品的影響

3.1.2 各網絡的資料對比

3.2 分割的效果對比

4 結論

4.1 優勢

4.2 不足

5 參考資料

繼續閱讀

HDU 1402 A * B Problem Plus

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡