天天看點

【CVPR2022】用于域适應語義分割的域無關先驗

摘要:本文給大家分享一篇我們在CVPR 2022 上發表的paper:Domain-Agnostic Prior for Transfer Semantic Segmentation。文章提出了一種圖像域無關的先驗,可以有效地提升域适應語義分割的精度。

本文分享自華為雲社群《​​EI盤古研究分享【CVPR2022】用于域适應語義分割的域無關先驗​​》,作者:198808xc。

【CVPR2022】用于域适應語義分割的域無關先驗
【CVPR2022】用于域适應語義分割的域無關先驗

1. UDA 分割中的相似類别混淆問題

盡管self-training在UDA任務上取得不錯的結果,但是在區分語義上相似的類時仍然存在困難,特别是當這些類在目标域中并不頻繁出現時,例如機車隻占總像素數的0.1%。圖1給出了機車類對和自行車類對容易混淆的例子,道路類對和人行道類對也容易混淆。對于上述現象,我們提出了一個假設。由于來自目标域的資料,,沒有标記,是以通過将映射到源域來學習語義對應,例如,通過基于GAN的圖像級風格轉移和通過僞标簽模拟。這可以看做以一種弱監督的方式學習域适應函數。這導緻近似的視覺表征,進而導緻識别的不準确性。此外,我們對不同方法中的相似類别的特征進行了統計分析,表1列舉了兩組易混淆類别。可以看到在隻有源域資料訓練時,源域中相似類别雖然距離較近但是分布緊湊重疊較少,但是直接用這個模型統計目标域特征發現他們的重疊比較嚴重,一個經典的方法DACS[x],在引入ClassMix對兩個域的圖像進行混合操作後緩解了重疊的問題。

【CVPR2022】用于域适應語義分割的域無關先驗

表1 兩組相似類比的特征統計

【CVPR2022】用于域适應語義分割的域無關先驗

圖1 域适應過程混淆例子

2. 方法

2.1 基線方法DACS

在mean-teacher訓練架構下為目标域圖像生成僞标簽,然後用目标域和源域資料一起訓練網絡是一種常用的方法,在此基礎上,DACS[1]提出用混合域M的訓練資料替換來自目标域的訓練資料。混合域M的訓練資料生成過程:在每次訓練疊代中,對帶有(真或僞)标簽的源圖像和目标圖像進行采樣并裁剪成相同的分辨率。接下來,從源域标簽中随機選擇一個類子集,并得到一個與圖像相同大小的二進制掩碼,屬于選中類别的位置為1其他為0,再根據此掩碼将源域和目标域資料混合在一起。

【CVPR2022】用于域适應語義分割的域無關先驗

2.2 為UDA分割任務提供域無關先驗

為了獲得對目标域特征更準确的估計,我們參考貝葉斯理論,後驗分布由先驗和似然組成。在我們的設定中,似然來自目标資料集,沒有足夠的資料來保證準确的估計。解決方案是為每個類别引入資訊先驗,這些先驗和域無關也不會受域差異的影響。我們找到兩種先驗,一種是one-hot編碼,另外一種借助word2vec[2]來為每個類别生成編碼。這樣每個類别都有一個先驗編碼向量,然後根據每個圖像的标簽,按位置替換為先驗編碼,構成一個先驗編碼圖,如圖2。然後我們将其和網絡提取的是視覺特征進行限制。為了讓視覺特征更多保留和類别語義相關的資訊減少域相關的資訊,二者通過簡單轉換後用L2 loss拉近。這就是我們新引入的DAP loss。

【CVPR2022】用于域适應語義分割的域無關先驗

該損失函數與DACS的分割交叉熵函數相加構成完整的訓練過程。

【CVPR2022】用于域适應語義分割的域無關先驗
【CVPR2022】用于域适應語義分割的域無關先驗

圖2 先驗編碼圖構成過程

2.3 一些思考

據我們所知,這是第一個将文本編碼嵌入到UDA分割的工作,并産生了相當大的準确性增益,這證明了語言線索協助視覺識别的有效性。然而,這還隻是一個初步的解決方案,還可以發現一些可能的方向

1)加強文本嵌入。目前使用的word2vec的特點是它不考慮同一個語義對應不同的單詞。我們試圖通過搜尋語義相似的單詞來增強先驗,但獲得的準确性幾乎沒有提高。這可能需要探索文本世界的複雜機制。

2)建構領域不可知論但視覺感覺的先驗。這就回答了一個問題:什麼樣的圖像資料被認為可以提供域無關資訊? 答案可能存在于廣義資料集,如ImageNet[3]或Conceptual Captioning [4],或甚至預先訓練的圖像文本模型,如CLIP[5]。這可能是解開領域相關的資訊以避免過度拟合的一個主要挑戰,值得我們繼續探索下去。

3. 實驗結果

3.1 資料和設定

我們在常用的街景分割場景中進行評估,将資訊從合成域遷移到真實域。GTAv和SYNTHIA作為複合域資料集,Cityscapes作為真實域。為了與其他方法保持一緻,我們使用Deeplabv2架構下RseNet101基本模型作為我們的圖像編碼器,ASPP分類器作為輸出層。

3.2 GTAv遷移到Cityscapes

我們首先在從GTAv到Cityscapes的域适應分割任務上評估DAP。DAP在19個級别上達到55.0%的平均IOU,這個結果超過基線2.9%,也優于其他單階段和單模型訓練的方法。我們将DAP的輸出作為僞标簽輸入ProDA的第1階段,然後保持ProDA[6]第2和第3階段訓練方法不變。我們将結果提升了2.3%,是目前最高的精度。

【CVPR2022】用于域适應語義分割的域無關先驗

圖4. GTAv遷移到Cityscapes結果比較。

3.3 SYNTHIA遷移到Cityscapes

将SYNTHIA轉移到Cityscapes的結果,如表所示,同樣比DACS在13類和16類上均提升了1.3%,比ProDA提升了4.4%和2.3%。再次驗證了我們方法的有效性。

【CVPR2022】用于域适應語義分割的域無關先驗

圖5. SYNTHIA遷移到Cityscapes結果比較。

3.4 DAP對于易混淆類别的辨識

在GTAv到Cityscapes遷移實驗中,自行車和機車的細分iou分别從42.6%、25.1%提高到53.1%、42.2%。從SYNTHIA到Cityscapes,這兩個類别平均提升2.4%。我們在圖6中可視化了一個分割的例子。除了定性觀察自行車與機車、道路與人行道的區分改善之外,我們還注意到這一改善背後的原因是這些易混淆類别的特征分布得到改善。這與表1中顯示的統計資料一緻,表明DAP減少了自行車和機車的估計分布以及道路和人行道之間的IOU。

【CVPR2022】用于域适應語義分割的域無關先驗

圖6. GTA遷移到Cityscapes實驗中自行車和機車分割結果對比,以及特征分布對比。

4. 結語

到這裡我們的文章就分享完了,論文中還有更詳細的消融實驗來證明我們方法的有效性,就不在這裡詳細列舉,更多内容歡迎關注我們的原文。

​論文:​​https://arxiv.org/abs/2204.02684​​​​​​​

參考文獻

[1] Wilhelm Tranheden, Viktor Olsson, Juliano Pinto, and Lennart Svensson. Dacs: Domain adaptation via crossdomain mixed sampling. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 1379–1389, 2021.

[2] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems, pages 3111–3119, 2013.

[3] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009.

[4] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages2556–2565, 2018.

[5] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

繼續閱讀