1.論文基本資訊

題目：Displets:Resolving Stereo Ambiguities using Object Knowledge

來源：Conferenceon Computer Vision and Pattern Recognition (CVPR)

時間：2015.6

作者：Fatma Guney, Andreas Geiger

2.論文摘要

立體技術近年來發展迅速，但仍然存在一些具有挑戰性的問題。一個比較顯著的問題是，傳統的方法不易對具有反射性和無紋理的平面恢複重建。該論文在較大的距離上進行規範，使用圖像分類技術确定目标視差位置（displets），采樣時使用基于稀疏視差評估的逆圖像技術以及語義分割技術。Displets指出，特定類别的物體形狀不是随意的，它具有典型有規律的結構。綜合上述思路，針對“車”這一類别進行試驗，利用CRF架構将目标轉化為超像素，在KITTI立體評估中，該方法排名第一。

3.引言

計算機視覺的目标是從錄影機得到的二維圖像中提取三維資訊，進而重建三維世界模型，主要分為四個步驟，如圖所示：

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

該論文主要針對立體比對階段，其基本原理是從兩個視點觀察同一景物以擷取立體圖相對，比對出相應像點，進而計算出視差并獲得三維資訊。一般情況下，一幅圖像中的某一特征基元在另一幅圖像中可能會有很多候選比對對象，可真正同名的結構基元隻有一個，是以可能會出現歧義比對。該論文就是為了解決立體歧義問題。

大部分的雙目視覺立體比對算法集中對文字特征和平滑假設做處理，忽略了語義資訊的重要性。該論文集中研究中級階段的目辨別别和語義分割技術，而且注重目前研究較少的三維重建部分。如下圖所示，目前算法面臨的主要問題是由于目标類的弱紋理性，反射性，半透明性，通過使用目辨別别知識，增加可能的目标之間的距離，提高比對效果。

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

4.文章基本原理

使用SLIC算法将圖像分解為一系列的超像素平面，關于displets的說明：

采樣三維CAD模型結構（上，中圖），通過局部平面和視差圖的比對擷取平面參數，其實S代表超像素平面，ni表示平面的法向量。

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

1）能量函數

立體比對算法主要是通過建立一個能量代價函數，通過此能量代價函數最小化來估計像素點視內插補點。立體比對算法的實質就是一個最優化求解問題，通過建立合理的能量函數，增加一些限制，采用最優化理論的方法進行方程求解。該論文的能量函數如下：

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

（1）DataTerm（能量函數第一部分）

該資料項指出，左圖像和右圖像中一緻的點在外觀上應該相似。由于可能存在很多相似的點，是以用一個半密集的特征區域比對算法從初始的稀疏視差圖得到懲罰偏差如下：

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

（2）LocalSmoothness（能量函數第二部分）

在能量函數中，鼓勵局部平滑度，通過懲罰超像素邊緣的不連續性，鼓勵具有相似方向的相鄰像素。平滑項可分解為：

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

表示超像素i和超像素j之間一系列共享的邊界像素，和控制每個式子的重要性。如果相鄰的超像素i和j很容易被一個閉塞的邊界分開，就降低和的權值。

（3）DispletPotentials（能量函數第三部分）

Displet Potentials辨別一個符合特定語義類的可能的幾何區域。Displet的一進制可能性（unary potential）被定義為，該可能性用來描述圖像中形狀符合特定目标類的區域被指定給語義類标簽

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

在每個displet和所有超像素之間定義一個可能性，加上一個變量代表平面的法向量，確定displet不會重疊。

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

2）Rapid Inverse Graphics（快速逆圖像）

該部分描述如何使用逆圖像從無限大空間的視差圖中再次采樣，用MCMC畫一組符合特定目标類的代表性采樣。該過程從原始錄影機中生成視差圖，呈現的視差圖和輸入的視差圖進行對比，傳回一個表示一緻程度的分數。這確定該算法可以抵抗不能程度的光照變化，特别是反射性和半透明的表面。

（1）Semi-ConvexHull（半凸面車身）

從Google上得到的CAD模型中有成千上萬的頂點和面，常用的QSlim算法和MATLAB處理不适用，是以提出一個簡單方法用來進行網格簡化，可以減少CAD模型中的幾何類，同時保留車身形狀，不影響呈現的深度圖。初始化一個凸面車身的網格，在該模型的體積限制下逐漸平滑逼近，該表達被稱為Semi-Convex Hull。其最小化了所有網格頂點之間的距離，并且對原始模型上的點進行密集采樣。簡化算法如下：

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

（2）Samplingthe Space of Displets（采樣Displets空間）

對于一個指定的物體類，c重點研究對得到的半密集視差圖中可能的displet空間的二次采樣。用MCMC解決逆圖像問題，直接從觀察模型中采樣參數。

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

該名額對區域O中的每一個像素都進行解釋同僚避免其他物體的遮擋。使用目标proposals可以避免通過語義類S直接采樣。論文提出一個适用于該場景的簡單有效的方法去确定圖像的proposals。首先，我們将類C中的所有有效的像素用三維表達，然後，我們沿着相機主坐标的x軸和z軸計算核心密度評估（KDE）。由于目标邊界經常和KDE的最小值一緻，通過将三維的點轉化為圖像進而确定目标的區域O為每對相鄰的最小值。

5.方法效果（實驗部分）

1）我們評估所有圖像區域（b）和僅僅是反射性區域（a）的比對錯誤率。

SGM：Census and Sobelfeatures；

CNN：recently proposedfeatures based on convolutional neural networks.

下圖表示使用模型結構中的不同項時的錯誤率；

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

下圖表示不同比對算法的錯誤率：

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

下圖表示當分别限制目标proposals和模型樹時，反射性區域的效果。橫軸為0時表示一直的Displets為0，為1時表示用了所有可能相關的proposals.可以發現Displets越多，算法性能越好。

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

下圖對超像素的個數對算法性能的影響進行評估，分别評估所有的區域和反射性區域。最後，在準确度和性能的綜合考量下，選擇了1000個超像素。

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

下圖表示不使用displets（左）和使用displets（右）的效果差别，每個圖都從上往下看。将有大幅度改善的區域用矩形辨別出。（大幅度的改善是指物體的反射性，半透明性減低。）最下面的兩個是失敗的案例，左圖中由于三維CAD模型中沒有收集罕見的大篷車類的交通工具的距離資訊，是以錯誤率上升。右圖失敗的原因是由于車和建築的聯系使得語義分割失敗，但是整體的重建效果提高了。

6.論文總結

該方法可以減少在弱紋理區域和反射性區域比對的錯誤率，大概可以減少50%。該篇論文中，将目标限制在特定的物體類别(車)上，計劃将Displets運用到其他的幾何類别中，比如建築，通常是無紋理的但是形狀是易于描述的。另一個研究方向是将Displets擴充到花，因為它是一個事先特定的基于光流和場景流非局部類别。

7.個人思考和總結

該論文的兩個核心點是：

1.建立了一個較好的能量函數，通過綜合各個影響因素并将函數優化，估計像素點視內插補點，實作立體比對。

2.結合了圖像部分的知識，确定圖像中的Proposals。結合三維知識，使用超像素的知識劃分圖像。首先對圖像CAD模型進行網格簡化，然後利用三維知識計算KDE确定目标的區域。

易了解錯的點：

1.立體比對并不是确定的物體和物體之間的比對，不是一幅圖像中有一個物體（車），然後去比對另一個圖像，看是否含有這個物體（車）。立體比對，比對的是比對基元，比對基元有不同的種類。該論文中比對的應該是像素，計算兩幅圖像對應位置的視差。立體比對是計算機視覺中的一個步驟，計算機視覺的目标是從錄影機得到的二維圖像中提取三維資訊，進而重建三維世界模型。解決立體比對過程中的歧義問題是為了更好地實作三維重建。

2.最後的效果展示圖7，圈框的部分并不是找到了和左圖中對應的物體是以把它圈出來了，圈出的部分是使用該論文中的方法後改善效果很明顯的區域。論文在開始指出，該方法可以解決傳統算法不能解決的無紋理的，反射性，半透明區域的比對問題。右邊的圖是使用了Displets方法的，肉眼可以看出，右圖相較于左圖變暗了，反射性變弱，可以推測出，比對效果變好了。

剛開始接觸該方面，了解有誤的，歡迎更正交流。

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：

1.論文基本資訊

2.論文摘要

3.引言

4.文章基本原理

5.方法效果（實驗部分）

6.論文總結

7.個人思考和總結

該論文的兩個核心點是：

繼續閱讀

對面向對象的了解(轉載原因:舉例簡單明了)

Matlab中将二維灰階圖像三維顯示

二維插值的三維顯示

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

Racket程式設計指南——13 類和對象

領域模組化分析

2014Esri中國使用者大會亮點系列之——ArcGIS平台能力

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

不支援嘗試執行的操作

對象的記憶體結構及占用空間的計算方法

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結 該論文的兩個核心點是：

1.論文基本資訊

2.論文摘要

3.引言

4.文章基本原理

5.方法效果（實驗部分）

6.論文總結

7.個人思考和總結

該論文的兩個核心點是：

繼續閱讀

Displets論文讀後感1.論文基本資訊2.論文摘要3.引言4.文章基本原理5.方法效果（實驗部分）6.論文總結7.個人思考和總結該論文的兩個核心點是：