天天看點

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

作者:将門創投

本文是VCC楊國慶博士對論文UrbanBIS: a Large-scale Benchmark for Fine-grained Urban Building Instance Segmentation 的解讀。該工作由深圳大學可視計算研究中心黃惠教授課題組與香港中文大學傅志榮教授合作完成,已發表在國際計算機圖形學頂級會議SIGGRAPH 2023上。

項目首頁:https://vcc.tech/UrbanBIS/

該工作成功建構了一個大規模城市場景了解基準測試資料集,提供包括圖像、點雲以及網格模型在内的海量多模态資料和三維語義标注與建築物執行個體标注,可廣泛應用于語義分割、執行個體分割、點雲重建、布局規劃等多項城市了解任務,為智慧城市前沿技術建設提供重要支撐。同時提供一個面向城市場景點雲建築物執行個體分割的輕量化模型B-Seg,采用端到端的學習結構,提高處理效率的同時提升模型針對不同城市場景的泛化性能。

注:本文圖檔與視訊均來自原論文與其項目首頁。

一、引言

本次導讀論文提出了一個用于建築物執行個體分割的大規模真實城市場景資料集UrbanBIS以及面向城市場景點雲的執行個體分割算法B-Seg。UrbanBIS共包含6個真實場景,總面積高達10.78

,包含3370棟建築,不僅提供城市場景的常見語義資訊以及建築物單體執行個體資訊,同時提供細粒度的建築物語義标注資訊。是目前唯一一個可用于點雲執行個體分割的大規模的3D真實城市場景資料集。B-Seg采用端到端的方式并選用了簡單政策進行執行個體聚類,是以可有效應用于大規模場景的資料進行中。該資料集的建立以及分割方法的提出可為執行個體分割的相關研究提供助力,也可應用于其他各類城市場景了解的相關任務中。

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

二、資料集的特點

本工作所提出的UrbanBIS具有以下特點:

  • 場景面積大:UrbanBIS共提供6個城市場景,總面積達到10.76

    ,這也是目前最大的三維真實場景資料;

  • 多模态的資料:除了點雲資料,UrbanBIS同樣提供圖像以及三角網格資料,資料類型多樣,可以滿足不同的應用需求;
  • 執行個體标注資料UrbanBIS不僅對三維場景中的語義資訊進行了标注,也對建築物執行個體進行了提取與标注,并且進一步圍繞建築物使用功能提供了細粒度的标簽;
  • 針對執行個體分割的基準測試:基于UrbanBIS對一些算法在其上的性能表現進行了測試,為新算法設計提供了新的評估基準,建立了首個城市場景執行個體分割的測試基準。

如表1所示,相比其他的城市場景資料集,UrbanBIS擁有目前最大的面積以及最為豐富的資料類型,并支援多項任務的訓練與驗證。

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

表1 UrbanBIS與其他資料集對比

三、資料集的介紹

UrbanBIS是基于無人機傾斜攝影技術擷取圖像作為原始資料并基于此采用處理軟體進行重建得到的三維模型。重建得到的模型進行了人工标注,結合之前已經釋出的一些資料集的标注規則,确定了7種城市場景中常見的語義類别,具體包括地面、水面、船隻、植被、橋梁、車輛以及建築物,如下圖所示:

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

圖1 UrbanBIS語義類别示意圖

對于各個語義類别的統計數量如下表所示:

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

表2 UrbanBIS不同語義類别資料量統計

除了語義資訊,同樣對建築物執行個體進行了劃分,并且考慮到建築物的類内差異過大的實際情況,進一步按照使用功能對建築物進行劃分為商業建築、居住建築、辦公建築、文化建築、交通建築、市政建築以及臨時建築,各個建築物示意如下圖所示:

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

圖2 建築物細類别示意圖

UrbanBIS提供了多源資料和豐富的标注資訊,可以用于多項視覺與圖形學相關任務中,例如:

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

圖3 UrbanBIS的潛在應用示意

四、B-Seg與執行個體分割基準測試

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

B-Seg的主要流程如下圖所示,主要包含三大部分:

  1. 用于提取點雲特征的骨幹網絡,該網絡學習得到的點雲特征将用于後續的三個子任務分支;
  2. 用于生成建築物執行個體候選的建築物候選生成子產品,主要包括建築物候選選擇、建築物分組以及建築物合并三個子子產品;
  3. 用于預測建築物執行個體候選得分的建築物得分預測子產品,該子產品預測的建築物得分用于評估建築物執行個體的預測品質,同時濾除錯誤的預測。
SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

圖4 B-Seg流程示意圖下圖所示為B-Seg的特征提取網絡和三個分支,其中特征提取網絡采用3D UNet,而分支采用全連接配接網絡。

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

圖5 網絡參數示意圖

4.1語義分割分支

為了擷取建築物執行個體,本文需要對輸入的點雲進行前後景分離進而獲得隻包含建築物類别的前景點

。具體地,本文使用了由三層線性層構成的感覺機和一個Softmax函數作為輸出層構造語義分割分支子網絡,用來學習每個點的語義特征資訊,并輸出語義類别預測的機率分布

其中

是類别總數。本文選擇最大預測機率的類别作為每個點的語義預測結果。這個過程由語義損失函數進行監督學習:

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

其中,

分别是點

的語義機率預測值以及語義類别标簽的真實值。

是傳統的交叉熵損失函數,由于城市場景中的資料廣泛存在長尾分布問題,為了這種緩解類别不平衡的情況,本文采用了權重交叉熵損失形式,這使得分割網絡模型對于場景中數量較少的類别關注度更高。此外,

是廣泛應用于醫學圖像分割的dice損失函數,衡量了預測樣本和真實樣本之間的相似度。本文通過引進該損失函數用于解決城市場景中正負樣本強烈不平衡的情況,提高建築物的語義分割精度。

4.2中心偏移分支

為了友善後續建築物合并的操作,在點雲特征提取階段後,設計了一個子網絡用于預測每個點到其建築物中心的偏移向量。本文使用了由兩層線性層構成的感覺機學習每個點的中心偏移特征,然後使用一層線性層預測每個點在三維空間中的中心偏移向量

, 該向量訓示了每個點到其對應建築物執行個體中心的距離和方向,經過中心偏移後每個點會朝着其建築物執行個體中心的位置進行靠近。為了達到這個目的,本文使用以下的中心偏移損失函數進行限制:

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

其中,

分别是點

的建築物中心偏移向量的預測值和真實值,

是點

對應的建築物中心。

損失函數限制了預測的中心偏移向量和中心偏移向量真實值之間的距離差異盡可能小。此外本文使用

損失函數限制了預測的中心偏移向量與中心偏移向量真實值兩者之間的夾角盡可能小。借助這兩個損失函數的限制,中心偏移分支可以準确地輸出每個點的中心偏移向量。4.3執行個體感覺分支為了獲得更準确的建築物執行個體分割結果,本文從建築物執行個體特征嵌入的角度考慮并建構了一個執行個體感覺子網絡。本文假設可以通過神經網絡将每個點的特征映射到一個新的嵌入特征空間。在這個空間裡,不同的建築物點之間的特征距離盡可能大而相同建築物點之間的特征距離盡可能小。為了達到這個目的,本文使用了一個由三層線性層構成的感覺機學習每個點的建築物執行個體感覺特征

,其中第三層線性層的輸入拼接了來自中心偏移分支的特征,使得學習得到的執行個體感覺特征包含執行個體中心位置資訊。為了更好學習執行個體感覺特征,本文使用了一個判别式損失函數進行監督訓練:

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

其中,

是建築物執行個體的總個數,

是建築物

所包含的點數量,

是點

學習得到的建築物執行個體感覺特征,

是建築物

内所有執行個體感覺嵌入特征的平均值。

分别是

的松弛範圍變量。在判别式損失函數

中,

的作用是将相同建築物的執行個體感覺特征拉向它們的特征中心,而

使得不同建築物執行個體感覺特征的中心互相遠離彼此,

是正則項限制,使得所有的建築物執行個體感覺特征中心朝向原點,降低特征學習的複雜度。基于這三項,執行個體感覺分支可以為每個不同的建築物執行個體點學習到不同的建築物執行個體感覺特征,将有助于區分不同的建築物執行個體。在點雲特征學習以及三個子任務分支之後,為了得到建築物的執行個體預測,本文提出了一種新的建築物執行個體候選生成子產品,該子產品包括了建築物執行個體候選選取、建築物分組、建築物合并三個部分。

  • 建築物執行個體中心執行個體候選選取部分基于語義分割分支的預測結果将輸入點雲劃分前景點(建築物點)和背景點(非建築物點)。對于前景點,本文選擇簡單的點雲采樣方法算法采樣K個點作為建築物執行個體候選點。為了使得采樣得到的建築物執行個體候選點能夠均勻地覆寫每個建築物執行個體表面上,本文選擇FPS進行采樣;
  • 由于每個建築物執行個體候選點代表的是一個完整的建築物執行個體,是以對于剩下的建築物前景點本文需要對它們進行分組操作,即把每個建築物前景點劃分到對應的建築物執行個體候選點,進而産生初始的建築物執行個體候選預測。本文根據建築物執行個體候選點直接為每個建築物前景點配置設定一個唯一的建築物執行個體預測标簽,基于

    個建築物執行個體候選點以及

    個建築物前景點構造了一個關系矩陣

    。在關系矩陣

    中,每個元素是由建築物前景點

    與建築物執行個體候選點

    兩者之間的建築物執行個體感覺特征的特征距離計算得到,代表着這兩個點屬于同一個建築物的關系相似性。在特征學習階段,執行個體感覺分支為每個點學習了其對應建築物的執行個體感覺特征,該特征具有在同一個建築物内的特征距離較小,在不同建築物之間的特征距離較大的特點,是以可選擇具有最小特征距離的建築物候選點

    的矩陣列索引作為第

    個建築物前景點的建築物執行個體預測标簽;

  • 盡管在建築物分組階段,本文已經得到了每個建築物前景點的初始建築物執行個體預測标簽,但這些預測标簽會出現備援的情況。這是因為在建築物執行個體候選選擇階段,本文為了避免對建築物的遺漏設定了大量的建築執行個體候選點采樣。這種做法雖然能覆寫場景中的建築物,但是也會大機率使得同一個建築物上分布着多個建築物候選點。經過了建築物分組操作後會出現同一個建築物會具有多個不同建築物執行個體預測标簽的情況。為了解決這個問題,本文提出了一個建築物合并子子產品将屬于同一個建築物上的所有建築物執行個體預測标簽進行合并。先使用了在中心偏移分支網絡預測的建築物執行個體中心偏移向量

    個建築物執行個體候選點進行偏移,使得它們朝着對應的建築物執行個體中心移動。建築物執行個體候選點在經過了中心偏移之後,會分别聚集在對應建築物的中心附近區域,進而完成後續的合并;

  • 由于語義預測錯誤、建築物候選點錯誤選擇、中心偏移預測錯誤等原因,本文的建築物執行個體候選生成子產品難以避免地會産生一些錯誤、無效的建築物執行個體預測。為了解決這種問題,引入了執行個體得分預測網絡,用于對生成的建築物執行個體預測進行品質評估與錯誤過濾。得分預測網絡結構與本文的骨幹網絡類似,是具有兩層對稱結構的三維子流形稀疏卷積U-Net網絡,為每一個建築物執行個體輸出一個建築物評價得分,該得分衡量了生成的建築物執行個體的品質好壞。

根據UrbanBIS上的設定不同,主要可分為幾種不同的基準測試方式,包括全部場景的基準測試、交叉場景的基準測試以及單一場景的基準測試,每種不同的測試方法可根據需要具體選擇。

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

表3 單一場景驗證明驗結果

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集
SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

表4 單一場景驗證建築物類别分割效果

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

圖6 龍華場景驗證可視化示意圖

五、UrbanBIS與B-Seg的下載下傳與使用

    UrbanBIS可提供圖像、點雲以及三角網格等多種不同格式的資料下載下傳。我們在項目首頁 https://vcc.tech/UrbanBIS/ 中提供UrbanBIS點雲和分割資料集的直接下載下傳與相關的使用說明,支援Dropbox與百度雲網盤兩種下載下傳方式。使用者可以根據需求按照不同的場景、不同的應用下載下傳。對于圖像和三角網格資料,我們提供申請下載下傳的方式,可在項目首頁上下載下傳申請表并按照要求填寫,我們會在第一時間回複下載下傳要求。B-Seg以及相關資料可參照首頁上的提示下載下傳。
SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集
SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

六、總結與展望

這篇文章詳細介紹了一個大型真實城市場景資料集UrbanBIS,為廣大使用者提供了六個代表性城市場景以及豐富的語義資料标簽和建築物執行個體标簽。該資料集不僅可用于城市場景的語義和執行個體分割任務,同樣可用于建築物重建、虛拟城市設計等一系列其他方向的發展。同時提出的面向城市場景的執行個體分割算法B-Seg可以為城市場景的建築物單體提取問題提供思路。七、思考與讨論

以下是開放性問題,歡迎讀者朋友留言讨論:

Q: UrbanBIS中包含不同類型的城市場景,各個場景之間也存在較大的差異,如何定量的描述城市之間的這種差異,并根據自己的城市情況選取合适的訓練資料?

參考文獻

[1] Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia. PointGroup: dual-set point grouping for 3d instance segmentation[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020: 4867–4876. [2] Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang. Hierarchical aggregation for 3d instance segmentation[C]. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). 2021: 15467–15476. [3] Tong He, Chunhua Shen, Anton van den Hengel. DyCo3D: robust instance segmentation of 3d point clouds through dynamic convolution[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021: 354–363. [4] Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo. SoftGroup for 3d instance segmentation on point clouds[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022: 2708–2717. [5] Meida Chen, Qingyong Hu, Zifan Yu, Hugues Thomas, Andrew Feng, Yu Hou, Kyle McCullough, Fengbo Ren, Lucio Soibelman. STPLS3D: a large-scale synthetic and real aerial photogrammetry 3d point cloud dataset[C]. Proc. BMVC. 2022. [6] Timo Hackel, Nikolay Savinov, Lubor Ladicky, Jan D. Wegner, Konrad Schindler, Marc Pollefeys. SEMANTIC3D.NET: a new large-scale point cloud classification benchmark[C]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences: Vol IV-1-W1. 2017: 91–98. [7] Jens Behley, Martin Garbade, Andres Milioto, Jan Quenzel, Sven Behnke, Cyrill Stachniss, Jurgen Gall. SemanticKITTI: a dataset for semantic scene understanding of lidar sequences[C]. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). 2019: 9297–9307. [8] Xavier Roynard, Jean-Emmanuel Deschaud, François Goulette. Paris-Lille-3D: a large and high-quality ground-truth urban point cloud dataset for automatic segmentation and classification[J]. The International Journal of Robotics Research, 2018, 37(6): 545–557. [9] Qingyong Hu, Bo Yang, Sheikh Khalid, Wen Xiao, Niki Trigoni, Markham Andrew. Sensaturban: learning semantics from urban-scale photogrammetric point clouds[J]. International Journal of Computer Vision, 2022, 130(2): 316–343. [10] Iman Zolanvari, Susana Ruano, Aakanksha Rana, Alan Cummins, Aljosa Smolic, Rogerio Da Silva, Morteza Rahbar. DublinCity: annotated lidar point cloud and its applications[C]. Proc. BMVC. 2019. [11] Weikai Tan, Nannan Qin, Lingfei Ma, Ying Li, Jing Du, Guorong Cai, Ke Yang, Jonathan Li. Toronto-3D: a large-scale mobile lidar dataset for semantic segmentation of urban roadways[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). 2020: 797–806. [12] Nina Varney, Vijayan K. Asari, Quinn Graehling. DALES: a large-scale aerial lidar data set for semantic segmentation[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020: 717–726. [13] Xinke Li, Chongshou Li, Zekun Tong, Andrew Lim, Junsong Yuan, Yuwei Wu, Jing Tang, Raymond Huang. Campus3D: a photogrammetry point cloud benchmark for hierarchical understanding of outdoor scene[C]. Proc. ACM Int. Conf. on Multimedia. 2020: 238–246. [14] Michael Kölle, Dominik Laupheimer, Stefan Schmohl, Norbert Haala, Franz Rottensteiner, Jan Dirk Wegner, Hugo Ledoux. The Hessigheim 3D (H3D) benchmark on semantic segmentation of high-resolution 3d point clouds and textured meshes from uav lidar and multi-view-stereo[J]. ISPRS J. Photogrammetry and Remote Sensing, 2021, 1: 100001. [15] Weixiao Gao, Liangliang Nan, Bas Boom, Hugo Ledoux. SUM: a benchmark dataset of semantic urban meshes[J]. ISPRS J. Photogrammetry and Remote Sensing, 2021, 179: 108–120. [16] Gülcan Can, Dario Mantegazza, Gabriele Abbate, Sébastien Chappuis, Alessandro Giusti. Semantic segmentation on Swiss3DCities: a benchmark study on aerial photogrammetric 3d pointcloud dataset[J]. Pattern Recognition Letters, 2021, 150: 108–114.

作者:楊國慶本文來自:深圳大學可視計算研究中心

Illustration by IconScout Store from IconScout-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由将門創投建立的AI學習社群(www.techbeat.net)。社群上線480+期talk視訊,2400+篇技術幹貨文章,方向覆寫CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高品質、知識型交流平台,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿内容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經曆講述 //

投稿須知

稿件需要為原創文章,并标明作者資訊。

我們會選擇部分在深度技術解析及科研心得方向,對使用者啟發更大的文章,做原創性内容獎勵

投稿方式

發送郵件到

[email protected]

或添加從業人員微信(chemn493)投稿,溝通投稿詳情;還可以關注“将門創投”公衆号,背景回複“投稿”二字,獲得投稿說明。

>>> 添加小編微信!

關于我“門”▼将門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋将門創新服務、将門技術社群以及。

将門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬建構而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”:

SIGGRAPH 2023 | UrbanBIS:大規模城市場景了解基準測試資料集

⤵一鍵送你進入TechBeat快樂星球