上交 | OccGen：生成式3D語義占用預測模型在自動駕駛領域新突破

編輯：計算機視覺工坊

添加小助理：dddvision，備注：方向+學校/公司+昵稱，拉你入群。文末附行業細分群

1、這篇文章幹了啥？

現有方法通常将3D語義占用預測視為一次性3D體素分割感覺問題，側重于在單步學習中建立輸入和占用圖之間的映射，但缺乏逐漸細化占用圖的能力以及合理的場景想象能力來完善局部區域。為了解決這一問題，研究提出了OccGen，這是一個簡單而強大的用于3D語義占用預測的生成感覺模型。OccGen采用了“噪聲到占用”的生成範式，通過預測并消除來自随機高斯分布的噪聲，逐漸推斷和細化占用圖。OccGen包含兩個主要元件：一個能夠處理多模态輸入的條件編碼器，以及一個使用多模态特征作為條件的漸進細化解碼器。這一生成管道的關鍵洞察是，擴散去噪過程能夠自然地模拟3D占用圖的從粗到細的細化過程，是以能夠産生更詳細的預測。在多個占用基準測試上的廣泛實驗證明了該方法的有效性，例如，OccGen在nuScenes-Occupancy資料集上相對于最先進方法，分别提高了多模态、雷射雷達獨占和攝像頭獨占設定下的mIoU 9.5%、6.3%和13.3%。此外，作為一個生成感覺模型，OccGen展示了判别式模型無法實作的理想特性，例如，在多步預測的同時提供不确定性估計。

(a)語義分割(seg)、對象檢測(det)和3D語義占用預測(occ)的生成圖。(b)與以往采用單一前向評估方案的判别方法相比，OccGen是一種生成模型，可以粗細地生成占用圖

2、論文資訊

标題：OccGen: Generative Multi-modal 3D Occupancy Prediction for Autonomous Driving

作者：Guoqing Wang等人

機關：上海交通大學等機關

首頁：https://occgen-ad.github.io/

3、主要貢獻&創新點

生成範式：采用“噪聲到占用”的生成範式，逐漸從噪聲中推斷和細化占用圖，以生成更細緻的預測結果。

高效設計：采用高效的編碼器-解碼器設計，編碼器在整個推理過程中僅運作一次，解碼器逐漸進行細化，實作了與單次前向方法相當的低延遲。

多步預測：作為生成模型，OccGen能夠提供多步預測，逐漸從噪聲中生成占用圖，實作從粗到細的預測，并提供了不确定性估計。

4、OccGen架構

OccGen架構:它具有編碼器-解碼器結構。條件編碼器提取特征從輸入作為條件。漸進式細化解碼器由一堆細化層和占用頭，将3D噪聲圖、采樣步驟和條件多尺度融合特征作為輸入并逐漸生成占用預測

噪聲到占用生成範式将3D語義占用預測視為一個生成過程，從單模态或多模态輸入逐漸生成周圍3D環境的詳細幾何和語義資訊。

具體來說，該範式旨在學習一個占用感覺模型，通過總共個擴散步驟，模拟從粗糙到精細的3D占用圖細化過程。這個過程可以用以下數學公式表示：

1.如下公式所示：該模型通過給定的擴散步驟索引和上一步的占用預測，來細化目前的占用預測，其中表示逐元素求和。

2.如下公式所示：其中擴散步驟代表從3D高斯體素圖到精細占用圖的從粗到細的細化過程。

這一範式利用了擴散模型強大的生成能力，通過逐漸去噪和細化的過程，實作了從噪聲到占用圖的生成，生成更精确和細緻的3D環境表示。與傳統的判别式方法相比，這種方法可以更好地模拟占用圖的分布。

條件編碼器由三個主要元件組成：多模态編碼器、融合子產品、和占用骨幹網。如上圖所示，多模态編碼器為雙流結構，包括LiDAR和相機流。

多模态編碼器：這是一個雙流結構，包含雷射雷達流和攝像頭流。對于雷射雷達流，使用VoxelNet和3D稀疏卷積将原始雷射雷達點轉換為雷射雷達體素特征。而在攝像頭流中，使用預訓練的2D骨幹網絡和特征金字塔網絡(FPN)從多視角圖像中提取多模态圖像特征。這裡涉及到的主要數學原理包括稀疏卷積和特征金字塔網絡的建構。

融合子產品：用于融合來自雷射雷達和攝像頭流的特征，生成多模态融合特征。這裡的融合過程可能涉及權重平均或特征拼接等操作，涉及到多模态特征的權重或組合。

占用骨幹：用于從多模态融合特征中生成多尺度特征，為後續的漸進細化解碼器提供條件輸入。這裡可能采用類似于FPN的多尺度特征金字塔建構，涉及到特征的上采樣和下采樣操作。

OccGen的漸進細化解碼器包括一系列細化解碼層和一個占用頭。如上圖所示，細化解碼層将随機噪聲圖或預測噪聲圖作為輸入最後一步，目前采樣步驟，以及多尺度融合特征。細化解碼層利用高效的3D可變形交叉注意力和自注意力以優化3D高斯噪聲圖。

細化解碼層：該層接受随機噪聲圖或上一步的預測噪聲圖Yt+1，目前采樣步驟t，以及多尺度融合特征作為輸入。

3D可變形交叉注意力：該層使用高效的3D可變形交叉注意力和自注意力來細化3D高斯噪聲圖。與2D視覺中的傳統可變形注意力不同，3D可變形注意力在3D像素坐标系中圍繞參考點采樣興趣點，以計算注意力結果。

數學表達：3D可變形注意力可以用以下通用方程表示：

其中和分别代表3D查詢和參考點，表示平展的3D體素特征，代表從參考點周圍采樣的興趣點，表示用于值生成的可學習權重，表示可學習的注意力權重，而表示對參考點的預測偏移。

細化解碼層的作用：細化解碼層通過使用可變形交叉注意力和自注意力，逐漸細化3D高斯噪聲圖，實作從粗到細的占用圖預測。這一過程是OccGen生成式架構的關鍵部分。

OccGen的訓練過程。主要包括以下：

Occupancy Corruption：通過逐漸向真值Y0中添加高斯噪聲，構造從真值到3D高斯噪聲圖的擴散過程。

損失函數：采用交叉熵損失、lovasz-softmax損失、場景級和類别級名額損失（如幾何IoU和語義mIoU）以及深度損失來優化網絡。總體損失函數可以表示為：

訓練過程：首先建構從真值到噪聲圖的擴散過程，然後訓練漸進細化解碼器來逆轉這個過程。訓練算法僞代碼如下：

輸入：多模态輸入{Xp, Xc}；真值占用Y輸出：訓練損失1. 提取多模态特征Fp和Fc2. 聚合攝像頭特征3. 擷取多模态融合特征Fm4. 編碼真值占用Y05. 建構噪聲信号并選擇步驟索引6. 信号縮放7. 損壞占用輸入8. 擷取下采樣的多尺度噪聲圖9. 擷取細化的噪聲圖10. 預測占用結果11. 計算訓練損失

訓練細節：在訓練過程中，采用AdamW優化器，權重衰減為0.01，初始學習率為2e-4，采用餘弦學習率排程器以及線性升溫政策。模型在8個V100 GPU上進行訓練，批處理大小為8，訓練24個周期。

推理階段的關鍵步驟包括：

條件輸入和采樣：給定多尺度融合特征作為條件輸入，OccGen從3D高斯分布中采樣一個随機噪聲圖，并逐漸生成占用圖。

采樣規則：在推理過程中，采用DDIM政策進行采樣。在每個采樣步驟t，将随機噪聲圖或上一步的預測噪聲圖以及條件的多尺度融合特征發送到漸進細化解碼器進行占用預測。獲得目前步驟的預測結果後，使用重參數化技巧計算下一個步驟的細化噪聲圖。推理階段使用非對稱時間間隔，由超參數td控制，本文中設定td=1。

漸進推理：根據擴散模型可以逐漸生成分布的特性，OccGen可以進行漸進推理，以獲得從粗到細的占用。相比之前的一步到位方法，OccGen不僅可以輸出确定的占用，還可以評估模型預測的不确定性。

不确定性評估：在多步采樣過程中，OccGen可以統計每步預測結果與上一步結果的差異，進而獲得不确定的占用結果。這為模型預測提供了不确定性的自然感覺能力。

5、實驗結果

nuScenes-Occupancy 驗證集上的語義占用預測結果。C、D、L、M 表示攝像頭、深度、LiDAR 和多模态。最佳僅攝像頭、僅雷射雷達和多模态結果分别标記為紅色、藍色和黑色。觀察表明，OccGen 優于所有現有競争對手，無論是僅攝像頭、僅雷射雷達還是多模态方法，這證明了 OccGen 在語義占用預測中的有效性。

SemanticKITTI 驗證集上的語義場景完成結果。&dagger 表示 MonoScene 提供的結果。結果顯示與所有現有競争對手相比，OccGen 實作了最高的 mIoU。

nuScenes-Occupancy上3D語義占用預測的定性結果。最左邊的一列顯示圖像周圍的輸入，以下四列可視化了來自基本事實CONet、OccGen（step1）和OccGen（step2）的3D語義占用結果。矩形突出顯示的區域表示這些區域具有明顯的差異（放大時檢視效果更好）。很明顯，我們的OccGen預測的“可行駛路面”和“人行道”區域具有更高的連續性和完整性，可以有效減少與CONet相比，孔面積大。

6、總結

本文介紹了一種名為OccGen的生成式感覺模型，用于自動駕駛中的3D語義占用預測任務。該模型采用“噪聲到占用”的生成範式，通過逐漸消除噪聲并預測3D環境中的占用情況，實作了從粗糙到精細的占用預測。該模型包含條件編碼器和漸進細化解碼器兩個主要元件。在訓練過程中，OccGen将高斯噪聲逐漸添加到真實占用，并通過解碼器逐漸消除噪聲以重建占用。在推理階段，OccGen以從噪聲到占用的方式逐漸生成占用圖，并通過DDIM采樣政策進行推理。與一步到位的判别式方法相比，OccGen不僅可以逐漸提高占用預測的精細度，還可以提供不确定性估計。實驗結果表明，在nuScenes和SemanticKITTI資料集上，OccGen的性能優于多個狀态-of-the-art方法，證明了其在3D語義占用預測任務中的有效性。綜上所述，本文提出了一種新穎的生成式方法，實作了更精細和可靠的3D語義占用預測。

本文僅做學術分享，如有侵權，請聯系删文。

計算機視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群，包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向，細分群包括：

2D計算機視覺：圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型：NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺：相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM：視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛：深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建：3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機：四旋翼模組化、無人機飛控等

除了這些，還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision，備注：研究方向+學校/公司+昵稱（如3D點雲+清華+小草莓）, 拉你入群。

3D視覺學習知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器，無人機等。

上交 | OccGen：生成式3D語義占用預測模型在自動駕駛領域新突破

繼續閱讀

笑不活了，周鴻祎嘗試問界M9自動駕駛，打出80分網友卻不買單

奧爾特曼選取網友提示詞，用OpenAI新款大模型Sora生成

誰是中國版Sora？國産文生視訊大模型加速跑

自動駕駛，從做好AEB開始

微軟“叛變”了！本月或将推出5000億新AI模型MAI-1，對抗谷歌和OpenAI｜钛媒體AGI

大模型+教育見成效，訊飛星火入選教育部“人工智能+高等教育”首批典型應用場景案例

“坪效之王”南城香，會是中式快餐的“終極模型”嗎？

港股進入技術性牛市，行業大模型第一股第四範式獲多家券商看好

AIGC大模型第一股，成“五一檔”超強黑馬！交易量股價雙創新高

五一期間汽車熱銷鴻蒙智行大定破萬特斯拉自動駕駛将入華

天圖萬境圖拉古：大部分大模型公司5年内死去

辯證看待“幻覺”問題，蔚來汽車在 AI 和大模型領域的應用實踐

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊

戰略基本功第1篇：一個實用的企業增長模型

簡單實用的實景三維模型Web端展示管理方法，還不趕緊試試嗎？

顔色量化算法模型及在多元化App中的應用