天天看點

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

作者:極市平台

作者丨東咚咚咚

來源丨自動駕駛之心

編輯丨極市平台

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

論文:https://arxiv.org/abs/2207.00026

首頁:https://ldkong.com/LaserMix

代碼:https://github.com/ldkong1205/LaserMix

背景

得益于實時、精細且結構化的感覺能力,雷射雷達(LiDAR)近乎成為了自動駕駛感覺子產品的标配。随着學術機構和自動駕駛大廠不斷推出大規模的LiDAR資料集(如KITTI , nuScenes , Waymo Open 等),利用深度學習技術對由LiDAR收集得到的點雲進行感覺(如分割、檢測、跟蹤等)已經成為當下研究的熱點之一。然而,從真實世界中收集得到的資料往往具有極高的複雜度和多樣性;同一個街道的路況在一天中的不同時刻尚且複雜多變,更不用說不同街道甚至不同城市的街道間呈現出的變化。是以,收集并标注一個能涵蓋各種情境的真實世界資料集是極其困難的。

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

雨天條件下的城市道路情況

以LiDAR點雲分割為例,搭載于自動駕駛車(通常是車頂部)的雷射雷達可以友善、迅速且相對準确地收集到實時的環繞自車(ego-vehicle)的場景資訊(scene layout)。這些結構化的資訊隐藏于收集到的LiDAR點雲之中,由點的三維坐标以及反射強度(intensity)等特征所定義。

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

由LiDAR點雲構成的複雜場景

和常見的圖像或語音資料類似,LiDAR點雲的收集(相對于标注)是較為友善的。對于一個基于學習的問題而言,昂貴的資料标注往往是制約模型泛化能力的關鍵因素。這樣一個問題在LiDAR點雲上尤為突出:一個由64線LiDAR傳感器收集得到的場景點雲往往包含超過10萬個點 ,而給收集到的每個點雲都打上語義标簽(semantic label)所需要的人力和經濟成本是及其巨大的。

動機

在上述前提條件的驅動下,這個工作開始探究基于半監督學習(semi-supervised learning)的LiDAR點雲感覺,即:在充分利用到現有的已标注資料的基礎上,結合便于收集的大量無标注資料,訓練泛化能力優異的模型。經典的半監督學習架構(如Mean Teacher ,MixMatch ,CPS 等)主要為圖像識别等任務所設計;它們在LiDAR點雲分割任務下沒有展現出具有競争力的性能。

由于LiDAR點雲是從真實世界中收集而來的,其自然而然地包含了真實場景下的結構先驗(spatial prior)。舉例來說,一個複雜的自動駕駛場景往往包括豐富的靜态(static)類别(如road,sidewalk,building,vegetation等)和動态(dynamic)類别(如car,pedestrian,cyclist等)。前者往往是構成一個場景點雲的主要部分,而後者由于較小的體積(如pedestrian類,每個樣例僅包含少量的點)和較低的出現頻率(如motorcyclist類,僅在少量場景中出現)等因素,僅占場景中的一小部分(如下圖所示)。

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

19種語義類别在SemanticKITTI資料集中的分布

這個工作觀察到,無論是靜态類别還是動态類别,都在LiDAR點雲場景中表現出很強的結構先驗(spatial prior)。這樣一種先驗可以很好地由LiDAR傳感器的雷射束(laser beam)所表征。以最常見的旋轉型LiDAR傳感器為例,其以自車為中心向周圍各向同性地(isotropically)發射具有固定傾角(inclination)的雷射射線。如下圖中的簡單例子所示,兩條射線(Beam 1和Beam 2)分别按照各自預定的傾角由LiDAR傳感器發出,探測并傳回所捕捉的空間資訊。由于不同類别本身具有特殊的分布,由雷射射線探測并傳回的點便能夠較為精準地捕捉到這些不同類别所蘊藏的結構化資訊。

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

旋轉型LiDAR傳感器以自車(ego-vehicle)為中心向周圍發射具有固定傾角(inclination)的雷射射線(laser beam),用以捕捉空間中不同位置上的分布資訊

如下圖(a)所示,對于一個自動駕駛場景(通常為涵蓋[-50m, +50m]的大型場景)而言,LiDAR傳感器發射出的不同雷射射線準确地記錄下了各個語義類别的分布情況:road類在靠近自車周圍的區域中大量分布,主要由位于下部的射線所收集;vegetation類分布在遠離自車的區域,主要由位于上部的具有較大正向傾角(inclination)的射線所收集;而car類主要分布在LiDAR點雲場景的中部區域,主要由中間的射線所收集。

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

LaserMix架構概覽。(a) LiDAR點雲包含着很強的結構先驗;環繞于自車周圍的物體和背景在不同的laser beam(如上、中、下)上有着不同的分布表現。(b) 基于LaserMix的架構适用于各種流行的點雲表征,如range view和voxel。(c) LaserMix在low-data和high-data條件下取得了超過各種SoTA方法的表現

基于上述發現,這個工作提出了一個簡潔且高效的半監督LiDAR分割架構LaserMix。這個架構主要由以下三個部分組成:

  1. 點雲劃分(partition)。利用所觀察到LiDAR點雲結構化資訊,提出了按照點的傾角(inclination)将LiDAR點雲劃分為“低變區域”(low-variation area)的政策;
  2. 點雲混合(mixing)。将劃分好的LiDAR點雲依照交織(intertwine)的形式進行混合;
  3. 一緻性限制(consistency regularization)。鼓勵模型對不同混合下的同一區域(area)作出高置信度(confident)和高一緻性(consistent)的預測。

這個架構具有以下三個重要特點:

  1. 通用(generic)。LaserMix直接對點進行操作,是以可以适用于絕大多數LiDAR點雲表征架構,如range view , bird's eye view , raw points 和cylinder voxel ,等;
  2. 有統計依據(statistically grounded)。所提出的半監督學習架構具有理論解釋,在這個工作對其進行了詳盡的分析;
  3. 高效(effective)。充分的實驗結果表明,LaserMix能有效提升半監督場景下的LiDAR分割性能。

方法

基于先驗的半監督學習

建構結構先驗

真實世界場景下的物體(object)和背景(background)與在LiDAR點雲中的空間位置之間展現出了很強的相關性(correlation)。在某一特定區域内,物體和背景遵從着較為相似的“模式”(pattern);舉例來說,靠近自車的近距離(close-range)區域内主要包括road類,而遠離自車的遠距離(long-range)區域主要由building和vegetation等類别組成。

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

邊緣化(Marginalization)

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

訓練(Training)

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

實作(Implementation)

上述架構的整體實作可以總結為一下三個步驟:

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

在本文中,作者設計就上述三個步驟設計了簡潔高效的操作,将在以下内容中逐一介紹。

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

LaserMix中基于傾角(inclination)的點雲劃分示意

LiDAR點雲劃分與混合

劃分(Partition)

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

混合(Mixing)

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

由于LaserMix是直接在點上進行操作的,是以可以适用于各種LiDAR點雲表征。這個工作以range view和cylinder voxel這兩種表征為例,探究了LaserMix的有效性。其中range view是目前最高效的LiDAR表征方式,具有直覺、低記憶體占用和高推理速度等特點,代表工作有:RangeNet++ ,SqueezeSeg系列 和SalsaNet 等;cylinder voxel是目前分割表現最好的表征,代表工作為Cylinder3D 。

設計理念

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

LaserMix架構總覽

LaserMix的整體網絡架構如下圖所示。其共包含兩個網絡:一個學生網絡(Student net)和一個教師網絡(Teacher net)。

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

LaserMix架構總覽

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

該架構的訓練僞代碼(pseudo-code)如下圖所示。

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

LaserMix半監督學習架構中訓練步驟的僞代碼(pseudo-code)

設計理念

LaserMix中提出的這樣一個半監督學習架構的目标是最小化前一章節中所述的邊緣熵(marginal entropy)。和往常的僞标簽優化方法僅僅鼓勵預測結果的高置信度(confident)不同,最小化邊緣熵要求分割網絡的預測兼具高置信度(confident)和高一緻性(consistent)。是以,LaserMix以有标注資料和無标注資料為“錨”(anchor),通過結構化的混合來鼓勵分割網絡輸出和監督信号可信且一緻的預測。

實驗結果

實驗配置

資料集

LaserMix在三個LiDAR分割資料集中進行了驗證:nuScenes ,SemanticKITTI ,ScribbleKITTI 。其中,nuScenes 資料集中的LiDAR點雲較為稀疏,由32線雷射雷達所收集;SemanticKITTI 和ScribbleKITTI 中的LiDAR點雲較密集,由64線雷射雷達所收集。值得一提的是,ScribbleKITTI 采用了塗鴉(scribble)的形式對SemanticKITTI 中的點雲進行了标注,其總體的語義标簽僅為後者的8%左右。

LaserMix在這樣三個特征各異的包含了真實世界資料的資料集上測試,驗證了其方法出色的有效性和廣泛的适用性。

分割網絡

在LiDAR點雲分割模型選取方面,LaserMix采用了LiDAR點雲表征中最流行的range view和voxel兩種形式。其中,range view網絡使用了FIDNet ;而voxel網絡為Cylinder3D 。這兩種分割網絡各具特色:range view網絡将3D的LiDAR點雲投影到2D的range image表征并作為分割網絡的輸入,其緊湊、結構化和較小的尺寸很好地節約了記憶體和提高了計算速度,并取得了不錯的分割性能;而cylinder voxel網絡以規整的網格體素作為分割網絡的輸入,取得了目前最好的分割結果。

LaserMix在這兩種LiDAR點雲表征上都進行了驗證,展現出該方法的普适性和适配性。

對比實驗

作者将上述三個資料集(nuScenes ,SemanticKITTI ,ScribbleKITTI )按照1%,10%,20%和50%的(有标注資料)比例進行了劃分,并認為其餘資料均為未标注資料。具體的半監督LiDAR點雲分割結果如下表所示。其中Sup.-only代表僅使用有标注資料進行訓練後的結果,可以了解為該任務的下界(lower bound)。

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

半監督LiDAR點雲分割基線結果

從表中結果可以看出,LaserMix極大地提升了半監督條件下的LiDAR分割結果。無論是在不同的資料集還是不同的LiDAR點雲表征下,LaserMix的分割結果都明顯地超過了Sup.-only和SoTA的半監督學習方法。

與目前的SoTA點雲半監督學習方法GPC 對比(如下表左所示),LaserMix亦在多種半監督資料切分條件下取得了明顯優異的性能,尤其是在極少有标注資料(如5%和10%)等場景下的提升尤為明顯。

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

左:與SoTA的3D半監督點雲分割方法的對比結果;右:LaserMix架構中的消融實驗

下圖所示為不同半監督學習方法的定性結果(qualitative results)。可以看出,與其他方法僅能提升自車(ego-vehicle)周圍特定區域的分割性能不同,LaserMix幾乎提升絕大部分區域的分割結果。其鼓勵混合資料具有高置信度(confident)和高一緻性(consistent)預測的理念整體而有效地提升了半監督場景下的LiDAR點雲分割性能。

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

不同半監督學習方法的分割性能(可視化)對比

消融實驗

作者将LaserMix與幾種流行的混合方法進行了比較:MixUp 和CutMix 可被認為是将區域集 設定為随機點 (random points) 和随機區域 (random areas), 而CutOut 可被認為是 将 設定為了“假填充” (dummy filling)。所下圖(a)所示, MixUp 幾乎對分割性能沒有幫助(末利用到任何結構資訊);CutMix 帶來了一定程度的性能提升, 因為LiDAR點雲場景總是包含着一些場景結構, 即相同的語義類别傾向于聚集 (cluster), 進而減小了在連續區域中的熵 (entropy)。

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

消融實驗:(a) 混合政策;(b) EMA衰減率;(c) 置信度門檻值

LaserMix提供了更加明顯的性能提升:由于其很好地利用了LiDAR點雲場景下的結構化的先驗資訊(即spatial prior),其用于最小化邊緣熵(marginal entropy)的區域集 使得分割網絡的預測更加的可信(confident)和一緻(consistent)。

上圖中的(b)和(c)分别探究了LaserMix中的EMA參數了置信度門檻值。可以看出,這兩組參數比較依賴于資料集本身,即dataset-dependent。總體上看,較高的EMA衰減率(decay rate),如0.9 ~ 0.99,能夠較好的鼓勵學生網絡(Student net)和教師網絡(Teacher net)之間的一緻性(consistency)。而對置信度門檻值 來說,稍高的值,如0.9左右,能夠提供較高品質的僞标簽(pseudo-label);過高的門檻值将減小混合(mix)帶來的性能提升(因為過多的預測被設定為了ignored label),而過低的門檻值可能會引入較多錯誤的監督信号,進而對性能提升造成損傷。具體的參數選取依舊需要在目标資料集上進行一定的調參實驗才能确定。

CVPR23|LaserMix:基于結構先驗的自動駕駛半監督學習架構

LiDAR點雲分割政策消融實驗。水準方向:不同的傾角(inclination)ϕ;垂直方向:不同的方位角(azimuth)α。(i-α, j-ϕ)表示分别在方位角α和傾角ϕ上有i個和j個劃分區域

有趣地,作者在上表中展示了LaserMix中的不同區域劃分政策(partition strategy),其中藍色和黃色區域分别來自不同的LiDAR點雲。首先可以肯定的是,對LiDAR點雲場景進行混合(mix)對分割結果帶來了提升,即對比與Baseline結果,所有劃分方法都或多或少地提升了分割結果。其次,按照水準方向(horizontal direction,即行方向)進行對比可以看出,随着混合變得更加精細,即傾角(inclination)ϕ的混合區域的數目增大,分割性能有着顯著的提升;而按照垂直方向(vertical direction,即列方向)上進行對比,增加方位角(azimuth)α的劃分次數并未帶來如傾角ϕ那般明顯的提升,特别地,上表第一列給出了将LiDAR點雲不同視角(如第二行第一列中的前視和後視)進行混合的例子。這樣一種更符合”直覺“的劃分方式并未帶來明顯的性能提升。

的确,按照方位角α進行劃分并未充分利用到LiDAR點雲的結構化資訊:與按照角度劃分自車(ego-vehicle)周圍360度範圍相比,按照傾角ϕ(也即點至自車的空間距離)劃分最能展現出LiDAR點雲的場景資訊。正如我們在開頭讨論的那樣,不同的語義類别(semantic class)在場景中有着獨特的分布方式,如road類在靠近自車周圍的區域大量分布,car類主要在中距離的區域分布,而building和vegetation等類别傾向于在遠離自車的區域出現。

按照方位角α方向的劃分沒有充分利用到這樣一種結構化資訊(即所有的被劃分區域中均包含了近、中、遠距離上的類别),而僅僅是将自車周圍不同的場景(如前視場景和後視場景)進行了拼接。這樣一種政策更加接近”直覺“上的資料增強(data augmentation)。不同地,LaserMix按照傾角ϕ進行劃分的政策很好地适配了LiDAR點雲的場景分布,進而為前文所述的半監督學習架構建構了較優的低熵區域(low-entropy areas),整體地提升了半監督條件下的LiDAR點雲分割性能。

結論與讨論

這個工作提出了一個名為LaserMix的用于半監督LiDAR點雲分割的架構。該工作不僅為所提出的架構提供有統計依據(statistically grounded)的解釋,還通過在不同資料集和不同LiDAR表征形式下的大量實驗,進一步驗證了其方法的有效性和強适用性。該工作中提出的LiDAR點雲場景劃分方法(即按照LiDAR傳感器的傾角ϕ對點雲進行劃分)很好地适配了自動駕駛場景的結構化特征,為未來的LiDAR點雲分割工作提供了一個有潛力的發展思路。

繼續閱讀