天天看點

閱讀筆記 Deep Hough Voting for 3D Object Detection in Point Clouds

Deep Hough Voting for 3D Object Detection in Point Clouds

點雲中三維目标檢測的深度Hough投票法 

PS:

pointnet:由于其maxpooling操作得到的全局特征,使分類任務效果很好;

對分割任務,将全局特征和之前學習到的各點雲的局部特征進行拼接,再通過mlp得到每個點的分類結果。

Pointnet++:是對之前pointnet的補充更新版,pointnet局部特征提取能力較差,這使得它很難對複雜場景進行分析。

pointnet++借鑒了CNN的多層感受野的思想,先對點雲進行采樣和區域劃分,在各個小區域内用pointnet網絡進行特征提取,不斷疊代。

閱讀筆記 Deep Hough Voting for 3D Object Detection in Point Clouds

網絡結構如下:

1、Sample layer:主要是對輸入點進行采樣,在這些點中選出若幹個中心點,利用的使FPS最遠點采樣,保證采樣點均勻分布在整個點雲集上。

2、grouping layer:利用上一層得到的中心點将點集劃分成若幹個區域。

3、PointNet layer:對這些點用MLP提取特征并最大池化聚合為采樣點坐标。

閱讀筆記 Deep Hough Voting for 3D Object Detection in Point Clouds

在set abstraction裡面,用到了多尺度的特征提取做一個優化,把小的一些特征和大的拼接起來(不同半徑),提升泛化能力。

閱讀筆記 Deep Hough Voting for 3D Object Detection in Point Clouds

對于分割任務做的優化,我們要做的事是對每個點都做一個語義分割的标簽,網絡中,我們首先做一個上采樣,怎麼做的?這是通過做一個插值實作的,采用基于距離的插值和跨級跳躍連結的分層傳播政策,在衆多插值選擇中,我們使用基于 k 個最近鄰的反距離權重平均值(如公式 2 ,預設情況下我們使用 p = 2,k = 3)。它會根據鄰域中K個點的距離以及點的特征做一個權重平均,插值後是在向全局特征還原,我們還要将這些特征去和之前的局部特征做拼接,然後繼續往後做點特征傳播,這樣重複該過程,直到我們将特征傳播到原始點集,再做語義分割任務,效果是會更好的。

VoteNet:

想做什麼:

為點雲資料建構了一個盡可能通用的 3D 檢測結構

提出背景:

3D 對象檢測的目标是定位和識别 3D 場景中的對象,更具體地說,在這項工作中,我們的目标是估計定向 3D 邊界框以及來自點雲的對象的語義類别。

然而,目前的 3D 目标檢測方法受 2D 檢測器的影響很大,把一些2D 檢測架構擴充到 3D,比如将 Faster 或 Mask R-CNN 等 2D 檢測架構擴充到 3D,将不規則的點雲體素化為規則的 3D 網格并應用 3D CNN 檢測器,這無法利用資料中的稀疏性,并且由于昂貴的 3D 卷積而受到高計算成本的影響。

或是将點雲資料投影為規則的 2D 鳥瞰圖像,然後應用 2D 檢測器定位對象。然而,這犧牲了在雜亂的室内環境中可能至關重要的幾何細節,圖像視覺轉換需要額外的計算開銷。

本文介紹了一個以點雲為中心的 3D 檢測架構,該架構直接處理原始資料,并且在架構和對象提議中都不依賴于任何 2D 檢測器。我們的檢測網絡 VoteNet 基于點雲 3D 深度學習模型的最新進展,并受到用于對象檢測的廣義 Hough 投票過程的啟發

遇到的問題:

然而,由于資料的稀疏性,直接從場景點預測邊界框參數時面臨一個主要挑戰:一個 3D 物體的質心可能遠離任何表面點,是以很難用一個步驟準确地回歸。

解決方案:

利用霍夫投票,首先在輸入點雲上采樣若幹seed點并vote其所屬目标的中心點,這樣可以得到很多靠近該目标中心的vote點,然後在vote點上提出bounding box 的建議,很好地解決了目标中心點離表面點很遠時不準确的缺陷

網絡架構圖:

閱讀筆記 Deep Hough Voting for 3D Object Detection in Point Clouds

首先,通過pointnet++提取原先場景中點雲的一個資訊,我們要找出目标物體的bondingbox的話,是要确定一個物體中心點的,由于我們點雲是物體表面資訊的一個表示,中心一定是額外确定的,我們用霍夫投票機制挑出這些候選點,得到原先不存在于點雲資料中的一些中心點的提議(原文叫proposal),有了這些點後,就繼續用pointnet++裡的sampling和grouping去最遠點采樣出K個聚類中心,劃分出球形空間,利用mlp對這些聚類提取出代表他們的特征向量,然後就是對這些向量預測一個類别标簽,包括bondingbox應該框在哪裡。

待完善。。。。。。

繼續閱讀