天天看點

基于場景文字的多模态融合的圖像分類

摘要:圖像分類任務是計算機視覺最為基礎的任務之一。依靠目标的細粒度、具有區分性的視覺特征能夠較好地區分通用目标。然而,對于部分細粒度的類别,僅僅依靠視覺特征難以區分不同類别。

本文分享自華為雲社群《​​基于場景文字的多模态融合的圖像分類​​》,作者: 谷雨潤一麥。

圖像分類任務是計算機視覺最為基礎的任務之一。依靠目标的細粒度、具有區分性的視覺特征能夠較好地區分通用目标。然而,對于部分細粒度的類别,僅僅依靠視覺特征難以區分不同類别。如圖1展示了不同類别的瓶子或建築物,瓶子類别的類内差異大(同一類别的樣本可以屬于塑膠瓶或屬于玻璃瓶),類間差異小(不同類别的樣本具有相同形狀等)。然而,目标上的文本資訊足以區分類别類型。基于此,一些方法試圖引入圖像内的場景文本作為額外的資訊來輔助圖像分類任務。聯合場景文本和圖像視覺資訊共同推理、分析圖像内容,是多模态融合分析的重要問題之一。

基于場景文字的多模态融合的圖像分類
基于場景文字的多模态融合的圖像分類

不同類别的瓶子和建築物

如圖2所示,算法[1]融合圖像的視覺特征和圖像中的場景文本特征來聯合分類。具體地,通過GoogLeNet提取圖像的視覺特征。利用現有的Word Spotting算法識别出圖像中潛在的場景文本執行個體。并将每個識别出的場景文本通過Word2Vector的方法,将場景文本執行個體轉化為特征。然而,并不是每個文本執行個體都有助于識别該圖像,是以,通過注意力模型,以圖像特征作為信号,關注于和圖像内容高度相關的文本執行個體特征。最後,對經過注意力模型的文本特征和視覺特征聯合分析,分辨圖像目标的類别。其注意力模型如圖3所示,視覺特征和文本執行個體特征共同輸入,計算出每個文本執行個體特征的權值,随後,用計算出的權值權重到文本特征中,得到權重後的文本特征。

基于場景文字的多模态融合的圖像分類

方法[1]架構圖

基于場景文字的多模态融合的圖像分類

注意力模型結構

方法[1]的性能易受Word Spotting算法的影響,為緩解因場景文本識别錯誤而帶來的分類錯誤,方法[2]提出圖4的算法。該算法的基本架構和方法[1]基本類似,不同之處在于提取場景文本和表示。其基本思路為:通過高斯混合模型模組化字典庫内單詞的表示,将預測到的文本表示通過學習到的高斯混合模型映射到已學習字典庫的表示的最近鄰點。具體地,在該方法中,通過單階段檢測器YoLo來密集預測圖像中文本執行個體的PHOC[4]表示,之後,通過已離線訓練的高斯混合模型,将預測到的文本的PHOC向量映射到預定義字典的最近鄰表示。以此,減少場景文本識别錯誤而帶來的分類誤差。

基于場景文字的多模态融合的圖像分類

方法[2]架構圖

方法[1][2]隻考慮圖像的全局資訊,沒有考慮圖像的局部區分性特征。為此方法[3]不僅提取圖像的場景文本特征,而且利用圖像中的通用目标資訊,聯合通用目标和場景文本共同推理、分析圖像内容。如圖5所示,通過ResNet152提取圖像的全局資訊,Faster-RCNN提取圖像中的通用目标特征。之後,将通用目标特征和場景文本執行個體特征輸入圖卷積神經網絡,推理分析出增強後的特征。将增強後的的特征和圖像全局特征一起輸入給分類器進行分類。

基于場景文字的多模态融合的圖像分類

方法[3]架構圖

從實驗結果可以看出,通過引入場景文本和通用目标進行聯合推理分析,算法整體的分類性能得到大幅度提升。以上方法充分說明将場景文本引入到圖像分析中的必要性,除圖像分類任務之外,場景文本所提供的資訊能夠有效用于VQA,圖像檢索,Visual grounding等任務之中。

  • Bai X, Yang M, Lyu P, et al. Integrating scene text and visual appearance for fine-grained image classification[J]. IEEE Access, 2018, 6: 66322-66335.Wang H, Bai X, Yang M, et al. Scene Text Retrieval via Joint Text Detection and Similarity Learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 4558-4567.
  • Mafla A, Dey S, Biten A F, et al. Fine-grained image classification and retrieval by combining visual and locally pooled textual features[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2020: 2950-2959.Tian Z, Shen C, Chen H, et al. Fcos: Fully convolutional one-stage object detection[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 9627-9636.
  • Mafla A, Dey S, Biten A F, et al. Multi-modal reasoning graph for scene-text based fine-grained image classification and retrieval[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2021: 4023-4033.
  • Levenshtein V I. Binary codes capable of correcting deletions, insertions, and reversals[C]//Soviet physics doklady. 1966, 10(8): 707-710.

繼續閱讀