基于場景文字的多模态融合的圖像分類

摘要：圖像分類任務是計算機視覺最為基礎的任務之一。依靠目标的細粒度、具有區分性的視覺特征能夠較好地區分通用目标。然而，對于部分細粒度的類别，僅僅依靠視覺特征難以區分不同類别。

本文分享自華為雲社群《基于場景文字的多模态融合的圖像分類》，作者：谷雨潤一麥。

圖像分類任務是計算機視覺最為基礎的任務之一。依靠目标的細粒度、具有區分性的視覺特征能夠較好地區分通用目标。然而，對于部分細粒度的類别，僅僅依靠視覺特征難以區分不同類别。如圖1展示了不同類别的瓶子或建築物，瓶子類别的類内差異大（同一類别的樣本可以屬于塑膠瓶或屬于玻璃瓶），類間差異小（不同類别的樣本具有相同形狀等）。然而，目标上的文本資訊足以區分類别類型。基于此，一些方法試圖引入圖像内的場景文本作為額外的資訊來輔助圖像分類任務。聯合場景文本和圖像視覺資訊共同推理、分析圖像内容，是多模态融合分析的重要問題之一。

不同類别的瓶子和建築物

如圖2所示，算法[1]融合圖像的視覺特征和圖像中的場景文本特征來聯合分類。具體地，通過GoogLeNet提取圖像的視覺特征。利用現有的Word Spotting算法識别出圖像中潛在的場景文本執行個體。并将每個識别出的場景文本通過Word2Vector的方法，将場景文本執行個體轉化為特征。然而，并不是每個文本執行個體都有助于識别該圖像，是以，通過注意力模型，以圖像特征作為信号，關注于和圖像内容高度相關的文本執行個體特征。最後，對經過注意力模型的文本特征和視覺特征聯合分析，分辨圖像目标的類别。其注意力模型如圖3所示，視覺特征和文本執行個體特征共同輸入，計算出每個文本執行個體特征的權值，随後，用計算出的權值權重到文本特征中，得到權重後的文本特征。

方法[1]架構圖

注意力模型結構

方法[1]的性能易受Word Spotting算法的影響，為緩解因場景文本識别錯誤而帶來的分類錯誤，方法[2]提出圖4的算法。該算法的基本架構和方法[1]基本類似，不同之處在于提取場景文本和表示。其基本思路為：通過高斯混合模型模組化字典庫内單詞的表示，将預測到的文本表示通過學習到的高斯混合模型映射到已學習字典庫的表示的最近鄰點。具體地，在該方法中，通過單階段檢測器YoLo來密集預測圖像中文本執行個體的PHOC[4]表示，之後，通過已離線訓練的高斯混合模型，将預測到的文本的PHOC向量映射到預定義字典的最近鄰表示。以此，減少場景文本識别錯誤而帶來的分類誤差。

方法[2]架構圖

方法[1][2]隻考慮圖像的全局資訊，沒有考慮圖像的局部區分性特征。為此方法[3]不僅提取圖像的場景文本特征，而且利用圖像中的通用目标資訊，聯合通用目标和場景文本共同推理、分析圖像内容。如圖5所示，通過ResNet152提取圖像的全局資訊，Faster-RCNN提取圖像中的通用目标特征。之後，将通用目标特征和場景文本執行個體特征輸入圖卷積神經網絡，推理分析出增強後的特征。将增強後的的特征和圖像全局特征一起輸入給分類器進行分類。

方法[3]架構圖

從實驗結果可以看出，通過引入場景文本和通用目标進行聯合推理分析，算法整體的分類性能得到大幅度提升。以上方法充分說明将場景文本引入到圖像分析中的必要性，除圖像分類任務之外，場景文本所提供的資訊能夠有效用于VQA，圖像檢索，Visual grounding等任務之中。

Bai X, Yang M, Lyu P, et al. Integrating scene text and visual appearance for fine-grained image classification[J]. IEEE Access, 2018, 6: 66322-66335.Wang H, Bai X, Yang M, et al. Scene Text Retrieval via Joint Text Detection and Similarity Learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 4558-4567.
Mafla A, Dey S, Biten A F, et al. Fine-grained image classification and retrieval by combining visual and locally pooled textual features[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2020: 2950-2959.Tian Z, Shen C, Chen H, et al. Fcos: Fully convolutional one-stage object detection[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 9627-9636.
Mafla A, Dey S, Biten A F, et al. Multi-modal reasoning graph for scene-text based fine-grained image classification and retrieval[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2021: 4023-4033.
Levenshtein V I. Binary codes capable of correcting deletions, insertions, and reversals[C]//Soviet physics doklady. 1966, 10(8): 707-710.

基于場景文字的多模态融合的圖像分類

繼續閱讀

【項目實戰課】基于Pytorch的EnlightenGAN自然圖像增強實戰

Transformer模型最開始是使用在NLP自然語言處理的模型，但是注意力機制越來越火🔥，且注意力機制跟人進行學習的方

[深度學習]AlexNet和VGG論文筆記AlexNetVGGNetAlexNet 和 VGGNet的對比

卷積神經網絡基礎知識四（VGG）一.簡單介紹二.基礎理論部分三.網絡實戰（Pytorch）參考

圖像分類---利用pytorch搭建AlexNet網絡模型訓練自己的資料集（貓狗分類）1 資料準備 2 利用pytorch搭建AlexNet網絡模型 3 訓練網絡模型代碼4 測試代碼

斯坦福機器學習筆記（七）——高斯混合模型與EM算法前記一高斯混合模型二 Jessen不等式三 EM算法四再看高斯混合模型

No handler for type [text] declared on field [content]

計算機視覺和機器學習應用中的多邊形标注介紹

EM算法一、EM算法的引入二、EM算法的收斂性三、EM算法四、EM算法在高斯混合模型學習中的應用五、代碼實作

Tensorflow卷積網絡實作對CIFAR圖像的分類CIFAR資料集簡介下載下傳資料集導入資料集顯示資料集資訊資料預處理定義共享參數定義網絡結構構模組化型定義準确率定義傳回下一個epoch的函數訓練模型損失（準确率）可視化

TensorFlow與Inception-v3Inception-v3資料集代碼

opencv學習筆記六十一：Googlenet模型實作圖像分類

圖像分類綜述—A survey on Semi-, Self- and Unsupervsed Techniques in Imag

基于PyTorch的卷積神經網絡圖像分類——貓狗大戰（二）：使用Pytorch定義網絡模型1. 需要用到的庫2. 模型定義3. 測試

基于PyTorch的卷積神經網絡圖像分類——貓狗大戰（一）：使用Pytorch定義DataLoader1. 需要用到的庫2. 資料擴充定義3. 自定義Dataset4. 測試

2018ICLR會議論文：無監督異常檢測的深度自編碼高斯混合模型DEEP AUTOENCODING GAUSSIAN MIXTURE MODEL FOR UNSUPERVISE