天天看點

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

原文連結:https://www.techbeat.net/article-info?id=4629

作者:鄭宇鵬

本文中,我們提出了STEPS,第一個自監督架構來聯合學習圖像增強和夜間深度估計的方法。它可以同時訓練圖像增強網絡和深度估計網絡,并利用了圖像增強的中間量生成了一個像素級mask來抑制過曝和欠曝區域。通過大量的實驗研究表明,我們的方法在這兩種區域取得了更好的效果。此外,我們提出了一個增強到顯示風格的仿真資料集CRALA-EPE,它以低成本、稠密的ground truth為室外場景的深度估計任務提供了更多的可能。

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

論文連結:

https://arxiv.org/abs/2302.01334

代碼連結:

https://github.com/ucaszyp/STEPS

一、 簡介

近年來,基于圖像的自監督深度估計方法不僅所需的硬體成本低,而且不需要真值的标注,是以受到了廣泛的關注。該類方法本質上依賴于相鄰幀光度一緻性的假設,通過合成圖和目标圖的光度誤差進行模型的訓練。

然而在夜間環境下,圖像中包含了大量的欠曝和過曝區域,它們在相鄰幀之間有較明顯的差異,同時掩蓋了對應區域的有效資訊,如圖1(a)的第一行所示。我們在nuScenes資料集的測試集上評測了基線方法RNW預測的深度值和真值的均方根誤內插補點(RMSE),同時我們人工挑選了其中100多個過曝和欠曝的場景,做了如圖1(b)所示的統計結果。可以看出,在這兩種特殊場景下,RNW的表現要低于平均水準,可視化效果如圖1(a)的第二行所示。

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

圖1 夜間深度估計的挑戰。(a)第一行,nuScenes資料集中過曝和欠曝的場景;第二行,RNW預測的深度圖;第三行,STEPS預測的深度圖。(b)過曝(Overexposed),欠曝(Underexposed)和測試集平均(Avg)的RMSE。

針對欠曝的區域,前人提出了先進行圖像增強再做深度估計的方法。雖然他們提出了各種有監督的夜間圖像增強方法,但在具有挑戰性的駕駛場景中的泛化性能并不令人滿意,而且需要一定量的人工标注。針對過曝區域對深度估計的影響的研究還較少。為此,我們提出了STEPS,第一個自監督聯合學習夜間圖像增強和深度估計的方法,同時不使用任何ground truth。

此外,針對欠曝和過曝區域,我們提出了不确定像素掩膜政策。它基于圖像增強的中間産物來過濾影響深度估計的圖像區域,進而将兩個自監督任務緊密地結合在一起。對比圖1(a)的第二行和第三行可以明顯發現,受益于我們的架構和政策,STEPS在欠曝和過曝區域的表現要優于基線方法。最後,我們還提出了CARLA-EPE,一個基于CARLA仿真器的增強到現實風格的夜間資料集。它具有密集的深度圖的标注,且更接近現實的圖像風格,為深度估計任務帶來更多的可能性。

二、方法

模型架構

如前所述,夜間圖像增強可以提高輸入圖像的品質,以幫助進行深度估計。但是有監督的夜間圖像增強在本質上受到資料集自身分布的限制。是以,我們提出了一個以自監督的方式聯合訓練深度估計和圖像增強的架構,如圖2所示。它包含自監督圖像增強子產品(SIE),夜間自監督深度估計子產品,由目标幀( I t I_t It​)經過SIE生成的光照圖( x t x_t xt​)将兩個子產品聯系在一起。

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

圖2 整體模型架構

自監督圖像增強子產品

根據Retinex理論,給定一個低光圖像 I I I ,可以通過

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

得到增強圖像,其中 x x x 是光照圖,圖像增強最重要的部分, I ′ I' I′ 是反射圖,也被認為是得到的增強圖像。一個不準确的照明估計可能會導緻過度增強的結果。為了提高性能穩定性和減少計算負擔,我們采用SCI的自校準子產品結構進行階段級照明估計。

如圖2底部所示,給定輸入的圖像,如 I t I_t It​,增強過程可以表示為:

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

其中n(0<n<3)為級數, E \mathscr{E} E 和 C \mathscr{C} C 分别表示光照估計子產品和校準子產品。 對于第n級, E \mathscr{E} E 和 C \mathscr{C} C 是通過以下步驟實作的:

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

其中, Φ E \Phi_E ΦE​ 和 Φ C \Phi_C ΦC​ 是可訓練網絡,分别用于估計光照圖 x n t x_n^t xnt​ 和生成校準殘差圖 r e s t n res^n_t restn​。校正子產品重新生成僞夜間圖像,使SIE可以分幾個級應用,經驗校正帶來更快的收斂速度和更好的增強效果。

訓練時,我們使用與SCI相同的損失函數,即保真度損失和平滑損失。保真度損失的原理是對于夜間圖像,光照分量在很大程度上與輸入圖像相似損失,它可以表示為:

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

平滑度損失是一種一緻性正則化損失,可以表示為:

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

其中 κ i , j \kappa_{i,j} κi,j​ 高斯核的權重, W ( i ) {W}(i) W(i) 是以像素 i i i 為中心的 5 × 5 5 {\times} 5 5×5 大小的視窗, x ( i ) x(i) x(i) 表示光照圖 x x x 在像素 i i i 處的值。

夜間自監督深度估計子產品

自監督深度估計首先由Sfm-learner提出,它的關鍵思想是從給定源幀( I s I_s Is​)根據幾何限制重建目标幀( I t I_t It​)。 具體來說,給定已知的錄影機内參矩陣 K K K、可訓練網絡 Φ d : R H × W × 3 → R H × W \Phi_{d}: \mathbb{R}^{H\times W\times 3} \rightarrow\mathbb{R}^{H\times W} Φd​:RH×W×3→RH×W 預測 I t I_t It​ 的深度圖 D t D_t Dt​ 和可訓練網絡 Φ p : R H × W × 6 → R 4 × 4 \Phi_{p}: \mathbb{R}^{H\times W\times 6} \rightarrow\mathbb{R}^{4\times4} Φp​:RH×W×6→R4×4 預測的 I s I_s Is​ 與 I t I_t It​ 之間的相對位姿 P t → s ∈ R 4 × 4 P_{t \to s} \in\mathbb{R}^{4\times4} Pt→s​∈R4×4 , I t I_t It​ 中的每一個點 p t p_t pt​ 都可以投影到 I s I_s Is​ 中的 p s p_s ps​ 上,投影公式表示為:

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

其中, ∼ \sim ∼ 表示齊次等價。此時,我們可以利用下面的公式從 I s I_s Is​ 中重建出目标幀,重建的目标幀記作 I t ^ \hat{I_t} It​^​

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

其中, < ⋅ > \big < \cdot \big > ⟨⋅⟩ 是STN提出的可微雙線性插值, p r o j ( ⋅ , ⋅ , ⋅ ) \rm proj(\cdot,\cdot,\cdot) proj(⋅,⋅,⋅) 表示公式 ( 7 ) (7) (7)。

自監督訓練的損失函數是 I t I_t It​ 與重建幀 I t ^ \hat{I_t} It​^​ 之間的光度誤差。我們采用MonoDepth2的方法,将L1損失和SSIM損失函數合并為光度損失函數 L p \mathcal{L}_p Lp​,其定義為:

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

其中 α \alpha α 是超參數,通常設定為0.85。另外,我們遵循MonoDepth2,通過加強預測深度圖的平滑性來避免深度歧義,即

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

由于夜間圖像品質較差,公式 ( 9 ) (9) (9) 的梯度帶有從噪聲。為了緩解這種情況,我們在RNW的基礎上引入了一個預訓練的白天深度估計模型 Φ d D \Phi^D_{d} ΦdD​ ,并通過一種對抗的方式指導夜間模型的訓練。構造夜間深度估計網絡 Φ d N \Phi^N_{d} ΦdN​ 作為生成器,通過訓練使其預測值 D t D_t Dt​ 與 Φ d D \Phi^D_{d} ΦdD​ 的輸出值 D d D_d Dd​ 不可區分。 基于Patch-GAN的鑒别器 Φ A \Phi_{A} ΦA​ 是一個可訓練的網絡,它來區分 D d D_d Dd​ 和 D t D_t Dt​ 。 Φ d N \Phi^N_{d} ΦdN​ 和 Φ A \Phi_{A} ΦA​ 是通過最小化對抗式損失函數來訓練的,該函數表示為

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

其中, ∣ I d ∣ |I_d| ∣Id​∣ 和 ∣ I t ∣ |I_t| ∣It​∣ 是白天和夜間訓練圖像的數量, D d = Φ d D ( I d ) D_d = \Phi^D_{d}(I_d) Dd​=ΦdD​(Id​) , D t = Φ d N ( I t ) D_t = \Phi^N_{d}(I_t) Dt​=ΦdN​(It​) 。

聯合訓練

兩個子產品聯合訓練的過程如圖2所示,SIE的第一級的輸出的增強結果 I t ′ I'_t It′​ 和 I s ′ I'_s Is′​ 作為深度估計子產品的輸入。公式 ( 8 ) (8) (8), ( 9 ) (9) (9), ( 10 ) (10) (10) 和 ( 11 ) (11) (11) 中,目标幀 I t I_t It​ 和重建幀 I t ^ \hat{I_t} It​^​ 分别被增強的目标幀 I t ′ I'_t It′​ 和增強源幀 I s ′ I'_s Is′​ 重建後圖像 I t ′ ^ \hat{I'_t} It′​^​ 所取代。

基于統計的光照不确定性mask

如文章開頭所描述,夜間圖像通常包含欠曝和過曝的區域,這些區域會丢失重要的細節資訊,導緻估計的深度值不準确。而且,過曝區域往往與汽車的運動(如車燈)相關聯,這也違反了自監督深度估計中的光照一緻性假設。是以,我們需要設計某種機制來濾除這些區域去訓練的影響。經研究發現,SIE 可以預測一個光照圖 x t x_t xt​ ,以确定每個像素的顔色的增強比。如圖3所示,欠曝區域的比值較大,過曝區域的比值較小。如果我們用這個來衡量每個像素在光度損失中的重要性,則可以最大可能減小這兩個區域對訓練的影響。

注意,我們給不确定區域每個像素點一個置信度,希望它們能參與到訓練中,而非直接強硬地全部遮蓋掉。

具體來說,我們定義了一個不确定映射 M u c ∈ R H × W M_{uc} \in \mathbb{R}^{H\times W} Muc​∈RH×W ,它在欠曝和過曝區域中給出了低置信度,在合理區域中給出了高置信度。 M u c M_{uc} Muc​ 表示為:

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

其中 a a a 和 b b b 是基于統計的光照值處于合理區域的上下界, p p p 和 q q q 是衰減系數。如圖3所示,直覺地看,這個函數看起來像一個橋,它利用光照圖生成不确定mask。

這個模組化源于我們對兩個夜間資料集光度圖的統計,它可以遮掩過曝和欠曝區域的像素,又不會過多遮掩過對訓練有幫助的像素點。

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

圖3 M u c M_{uc} Muc​ 的原理。 (a)光照圖 x t x_t xt​ 。 (b) M u c M_{uc} Muc​ 函數,該函數可以柔和地屏蔽過曝和弱曝區域。 © 不确定mask的可視化

三、實驗

資料集

我們在nuScence資料集和RobotCar資料集上和其他方法做了比較。此外,針對真實資料內建本高、深度圖稀疏以及仿真器資料域與現實資料域差異大的痛點,我們提出了增強到現實風格的仿真資料集CARLA-EPE。

nuScenes-Night

nuScenes是一個大規模的自動駕駛資料集。它包含多種天氣環境下複雜的道路場景,十分具有挑戰性。

RobotCar-Night

RobotCar資料來源于RobotCar團隊一年的時間内在各種天氣下頻繁地穿越牛津市中心的同一條路線時的駕駛記錄,包括車輛上的6個攝像頭資料以及雷射雷達、GPS和INS資料。

CARLA-EPE

上述兩個資料集的真實深度均來自雷射雷達,然而,雷射雷達資料的采集是昂貴的,并且隻能提供稀疏的深度圖。為此,我們将目光放在了仿真資料上。RGB圖像和相應的密集深度圖可以很容易地在仿真器(例如CARLA)中收集,但仿真圖像和真實圖像之間的分布差異極大地影響了訓練模型在真實場景中的應用。是以,我們提出了一個基于CARLA和增強圖檔真實感的網絡EPE的夜間深度估計資料集CARLA-EPE,它可以提供密集的深度真值和遷移到真實風格的圖像,如圖4所示。

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

圖4 EPE增強後的圖像(CRALA-EPE)與增強前(CRALA)的對比。

實驗結果

如表1所示,我們在nuScenes資料集和RobotCar資料集上均達到了SOTA,在準确率和誤差上均有顯著的提升。在更具挑戰性的nuScenes資料集上,我們的a1相較于baseline提升了16.2%,abs_rel相較于baseline降低了10.4%。

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

表1 nuScenes資料集和Oxford資料集的定量結果。

可視化結果

如圖5所示,藍色方框展示了基線方法受到過曝的影響,預測了錯誤的深度。 紅色方框還表明基線方法在欠曝區域錯誤地估計物體深度。由于我們的方法提出了新的架構和自适應掩膜的政策,是以可以使模型在這兩種區域中預測出更合理的深度。

ICRA 2023 | 首個聯合暗光增強和深度估計的自監督方法STEPS一、 簡介二、方法三、實驗四、總結與展望

圖5 可視化結果。

四、總結與展望

我們提出了STEPS,第一個自監督架構來聯合學習圖像增強和夜間深度估計的方法。它可以同時訓練圖像增強網絡和深度估計網絡,并利用了圖像增強的中間量生成了一個像素級mask來抑制過曝和欠曝區域。通過大量的實驗研究表明,我們的方法在這兩種區域取得了更好的效果。此外,我們提出了一個增強到顯示風格的仿真資料集CRALA-EPE,它以低成本、稠密的ground truth為室外場景的深度估計任務提供了更多的可能。

參考文獻

[1] nuscenes: A multimodal dataset for autonomous driving: https://www.nuscenes.org

[2] Regularizing Nighttime Weirdness: Efficient Self-supervised Monocular Depth Estimation in the Dark: https://arxiv.org/abs/2108.03830

[3] Regularizing Nighttime Weirdness: Efficient Self-supervised Monocular Depth Estimation in the Dark: https://arxiv.org/abs/2108.03830

[4] The retinex theory of color vision.: https://lambentresearch.com/color/docs/LandRetinex.pdf

[5] Toward Fast, Flexible, and Robust Low-Light Image Enhancement: https://openaccess.thecvf.com/content/CVPR2022/html/Ma_Toward_Fast_Flexible_and_Robust_Low-Light_Image_Enhancement_CVPR_2022_paper.html

[6] Unsupervised Learning of Depth and Ego-Motion from Video: https://arxiv.org/abs/1704.07813

[7] Spatial transformer networks: https://arxiv.org/abs/1506.02025

[8] Digging Into Self-Supervised Monocular Depth Estimation: https://arxiv.org/abs/1806.01260

[9] Image-to-Image Translation with Conditional Adversarial Networks: https://arxiv.org/abs/1611.07004

[10] Enhancing photorealism enhancement: http://vladlen.info/papers/EPE.pdf

Illustration by nanoagency from IconScout

-The End-

關于我“門”

将門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋将門創新服務、将門-TechBeat技術社群以及将門創投基金。

将門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬建構而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”:

[email protected]

繼續閱讀