Methods of processing infrared image for Re-ID task
- one-stream
-
- 《RGB-Infrared Cross-Modality Person Re-Identification》
- two-stream
-
- 《Visible Thermal Person Re-Identification via Dual-Constrained Top-Ranking》
- 《Hierarchical Discriminative Learning for Visible Thermal Person Re-Identification》
- Attend to the Difference: Cross-Modality Person Re-identification via Contrastive Correlation
- 2020-CVPR Cross-modality Person re-identification with Shared-Specific Feature Transfer
- GAN
-
- 2018-IJCAI Cross-Modality Person Re-Identification with Generative Adversarial Training
- 模态轉換
-
- 2019-ICCV RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature Alignment
- 2019-CVPR Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification
首先分析下Re-ID這個task的特點,和tracking有點類似,目标是同一個人在不同場景、角度,不同姿勢,甚至是不同模态下的歸類。這意味着需要拉近同一個人在不同場景、模态下對應的feature。是以,隻要是某個人的圖像,不論是哪個模态,力争最終提取到的feature是有共同特性的。
通常使用孿生網絡提特征,再使用共享層提公共特征,以實作模态融合。一些模态間、類間的loss來引導此過程,或者是使用GAN。
對于其他任務就不一定要強行融合模态了,比如RGBT counting,我覺得是個相輔相成的過程吧,有些可以作為補充資訊用上,而一些黑夜的完全是黑的,隻能抛棄……emmm……我想要解決的是模态具有主從性的任務,RGB in counting & depth in segmentation都是作為非必要的補充資訊
one-stream
《RGB-Infrared Cross-Modality Person Re-Identification》
2017-ICCV,這個task的挖坑論文:

Motivation是顯而易見的,應對夜晚場景,不多說了。
Challenge1:RGB images是三通道RGB, IR images是單通道的不可見光,兩個模态有着本質差别。
Challenge2: Colour information iscrucial in RGB Re-ID, however can hardly be used in RGB-IR Re-ID
Challenge3:RGB Re-ID中就存在的viewpoint change,
pose and exposure problems,在RGB-IR中仍然存在且更加麻煩
三個貢獻:
- 作者做了一個跨RGB&IR兩模态的Re-ID資料集SYSU-MM01進行研究(中大牛逼,打call!)
- 研究分析了跨模态任務的幾種結構,one-stream two-stream 以及非對稱FC:
RGB-Infrared Cross-Modality Re-Identificationone-streamtwo-streamGAN模态轉換 - 提出了deep zero-padding方法進行跨模态模組化,适用于one-stream and two-stream structure
Structure
cross-modal的主要幾種結構如下:
本文分析了one-stream&two-stream兩種結構,并且經過一些假設和推導後認為二者是可以等價的,one-stream可以對待不同domain的資料進行不同的反應,激活specific&shared nodes而忽略其他domain的。理論上不需要先經過specific layer再經過shared layer進行跨模态模組化,one-stream也可以自動的選擇性激活神經元。
是以提出zero-padding的方式。Re-ID也是類似于分類,若是跨模态,在input為兩個模态都預留了位置。RGB&IR image都可以輸入,缺失的domain就用0來補。one-stream model會自動依據不同不同domain資料的輸入進行映射~
(不得不佩服作者的insight以及writing包裝能力。看似很簡單的idea,作者給出充分的理論推導,挖掘了模型背後的一些東西。個人很喜歡這種做法與研究思路!)
two-stream
《Visible Thermal Person Re-Identification via Dual-Constrained Top-Ranking》
感謝知乎上一位大佬,總結很到位:https://zhuanlan.zhihu.com/p/55320029
孿生分支提特征,公用的FC實作模态融合,後面的兩種loss來引導融合過程。使用 ranking loss 加上 cross-entropy loss 解決行人重識别問題是近幾年多數方法的典型代表,本文是在跨模态的情況下對這兩個loss進行了改進。
《Hierarchical Discriminative Learning for Visible Thermal Person Re-Identification》
和上一篇結構上很相似,也是two-stream的
在特征提取分類的過程中,提出了一個metric learning的概念,也是在類間模态間,限制與拉近距離。不具體分析了,詳見論文。
Attend to the Difference: Cross-Modality Person Re-identification via Contrastive Correlation
人類在比較兩個相似物體時通常會注意到它們之間的差異性,是以本文提出了一種雙路徑交叉模态特征學習架構
先是一個two-stream的正常架構
然後是針對不同人之間的差異性進行模組化與特征表示,本質上還是在模态間及類内進行分類,比較适用Re-ID task
2020-CVPR Cross-modality Person re-identification with Shared-Specific Feature Transfer
可以參考https://zhuanlan.zhihu.com/p/109383385,是paper作者本人寫的。
motivation是,specific domain feature也是非常重要的,比如RGB中的一些色彩資訊。是以作者先是two-stream structure擷取共有&私有特征後,再對三類特征(兩個domain的私有,以及共有特征)使用GCN處理。利用近鄰關系進行資訊傳遞,會補全每個樣本缺失的對立模态的specific feature,而且GCN的平滑特性也會使得shared feature魯棒性有所提高。最後三類feature會被fusion,再進行檢索。
先是拼接特征H&P得到 Z Z Z公式(9)。
依據two-stream structure輸出feature H&P進行Affinity modeling關聯模組化得到 A A A,求其對角矩陣可得D,再加上一個可學習的參數W,以及ReLU,最終可以得到一個平滑後的feature Z ~ \widetilde Z Z
:
看到這裡我有個很奇怪的想法就是,好不容易分離出來的specific and shared features,又用GCN fusion成一個。這不白幹了嘛。。
果然:
看來review和我有一樣的擔心,是以作者加了一部分loss進行限制。我沒有細看,估計是有點用的吧,畢竟也取得了SOTA效果。
這種GCN fusion的方式還是值得研究的,有空多關注下!
GAN
2018-IJCAI Cross-Modality Person Re-Identification with Generative Adversarial Training
ji rongrong老師團隊的工作
使用GAN來提取公共子空間中的modality-invariant features(這應該是現在很常見的一種跨模态融合操作了,之前聽實驗室一同學也是這種思路在做RGBD saliency segmentation,不過就是比較難調……)
思路很簡單,判别器希望區分出RGB&IR兩種不同模态,而生成器努力提取公共特征,并且處理好行人id分類。
模态轉換
具體思路是利用GAN将RGB圖像轉換成infrared風格或者反之。統一風格模态後,再去提共同特征。可以看作是GAN方法和two-stream的結合。
可以參考https://zhuanlan.zhihu.com/p/91655667
我對這種方式表示懷疑。自己看過很多RGB&infrared的資料,RGB是有很多細節,infrared則對物體表面不敏感,對人體發熱的表面皮膚才能成像。是以個人覺得這種用GAN暴力遷移,還是難以突破實體限制去想象另一個光譜的東西。。然而這兩年唯二中了CV三大頂會的還就是GAN模态轉換的。可能idea比較唬人看上去比較優美,但個人不太喜歡這種理論站不住腳有點為了novelty而novel的。。
2019-ICCV RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature Alignment
CycleGAN 将RGB轉為infrared:
2019-CVPR Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification
RGB & infrared 直接互相轉換: