天天看點

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

本文簡要介紹了CVPR 2022錄用的論文”Few Could be Better Than All: Feature Sampling and Grouping for Scene Text Detection”的主要工作。該論文提出了一種簡單高效的特征采樣和特征組合的方法用于場景文本檢測,不同與以往将所有的特征都用于預測的方法,該方法會挑選出一些具有代表性的前景文本特征進行組合和預測。特征采樣群組合的政策可以讓模型避免背景噪聲的幹擾,在提升檢測精度的同時降低了計算複雜度,不再依賴于繁雜的後處理子產品。

一、研究背景​

場景文本檢測一直是一個活躍的研究領域,并且在實際中有着非常廣泛的應用,例如場景了解、自動駕駛和照片翻譯。由于場景文本所具有不同的尺度、複雜的照明環境、視角的失真、多方向性以及複雜的形狀,場景文本檢測仍然是一項具有挑戰性的任務。此前大多數的場景文本檢測的方法都依賴于複雜的後處理,例如錨點生成、非最大抑制、二值化或輪廓提取,來生成或者細化最終的預測結果,而複雜的後處理往往會影響最終的檢測結果。随着Transformer被不斷應用于各種視覺任務中,一些基于DETR[1]的目标檢測方法也成功擺脫了對複雜後處理子產品的依賴,并且獲得了優異的檢測性能。雖然基于DETR的目标檢測架構大獲成功,但是他們仍然被小目标和高計算複雜度所困擾。例如最近的一個基于DETR的文本檢測方法[2],無法在ICDAR2015[3]和ICDAR2017-MLT[4]資料上取得令人滿意的結果,是因為在這兩個資料集中的文本執行個體具有更極端的尺度和長寬比,而Transformer通常無法在小尺度上充分地擷取小文本特征。此前,研究者們通常會使用多尺度特征來解決小目标的檢測問題,但是對于DETR的檢測架構而言,多尺度特征檢測方法的時間成本是不可預測的。是以,如何有效降低Transformer 在多尺度特征檢測上的計算複雜度,如何更好的檢測具有極端長寬比的文本仍然需要更多的探索與研究。

二、方法簡述​

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

圖1 網絡整體架構圖

本文提出了一個簡單而有效的基于Transformer的場景文本檢測網絡,其主要由特征采樣和特征組合兩個子產品所組成。特征采樣子產品主要是對骨幹網絡提取的多尺度特征進一步提取和篩選,特征組合子產品主要是對篩選後的特征進行模組化與預測。在特征采樣階段,通過觀察發現前景文本執行個體通常隻占據了場景圖中的幾個狹窄的區域。是以,本文認為模型的特征學習并不需要基于所有的特征點,隻需要選擇具有代表性的前景文本特征進行組合和預測,這樣會帶來以下幾個優勢:(1)可以大幅度降低模型在多尺度特征上的計算複雜度;(2)可以顯著的消除背景的備援資訊,利于提高Transformer 的效率;(3)利用Transformer對采樣特征進行分組,可以獲得更準确的組合結果以及不需要任何後處理子產品的檢測框;(4)由于特征采樣群組合是以端到端的方式實作的,這兩個階段可以互相促進、共同提高最終的檢測性能。

特征采樣:由于場景文本尺度和長寬比的極端分布,本文使用了基于FPN[4]的多尺度特征來提高檢測性能。然而,這種方案給Transformer帶來了非常高的計算成本和更長的收斂時間。通過觀察發現,前景文本執行個體隻占據很小的區域,而定位文本位置所需的有用資訊也相對較為稀疏,是以本文提出了一種特征采樣政策來減少多尺度特征所包含的備援的背景噪聲以降低模型的計算複雜度,增強模型的特征學習能力。

為了從前景文本中提取代表性特征,本文使用一個簡單的多尺度文本提取器來預測像素級上文本區域的置信度分數,具體結構如下圖2所示。首先,本文将特征映射與兩個來自 CoordConv[5]的标準化坐标通道進行合并以使特征圖具備位置資訊。其次,受到Deformable ROI Pooling[6]的啟發,本文專門設計了一個Constrained Deformable Pooling來對多尺度特征圖進行下采樣,差別于Deformable ROI Pooling中預測的偏移量會将無關資訊合并入特征圖中,Constrained Deformable pooling增加了一個可學習的尺度參數來限制預測的偏移量。然後,本文構造了一個由卷積層和Sigmoid函數組成的評分網絡以生成所有尺度上的代表性文本區域的置信度評分。最後,對各個特征圖中的置信度得分進行排序并分别選擇每張特征圖中得分最高的N個特征點,用于輸入特征分組子產品進行模組化。

通過上述的特征采樣政策,在所有尺度上的特征數量會顯著減少,這将極大程度減小模型的計算複雜度和備援的背景噪聲。本文主要選擇的特征基本都來自于前景文本區域,而這些采樣的特征将包含充足的幾何和上下文資訊供模型進行模組化與定位。

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

圖2 特征采樣政策結構圖

特征組合:通過特征選擇,隻有少數與前景文本高度相關的代表性特征被提取出來輸入到Transformer中。然後利用Transformer結構,通過注意力機制隐式的将來自同一文本執行個體的特征進行聚合,如下圖3所示,本文在最後一個Transformer層中可視化了一個文本執行個體的特征注意力權重,當顔色由藍色變為紅色時,其權值從0增加到1。從圖中可以看出,紅色檢測框中的文本執行個體的輸出特性主要由内部文本點的特征進行聚合得到。

對比之前的方法,在特征圖

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

上應用注意力機制是在所有空間位置上的計算複雜度。以原始的DETR編碼器為例,注意力操作的複雜度為

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

,然而在本文的方法中,複雜度隻與所選特征數量的N有關,是以本文所設計的子產品的計算複雜度為

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

,同時在本文的實驗中,所選擇的特征數量

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

綜上所述,通過本文所設計的采樣政策可以減小模型的計算複雜度,同時保留極具代表性的特征進行檢測任務,再利用自注意力機制所擁有的特征聚合能力得到精确的檢測框并且無需任何後處理。

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

圖3 特征采樣與特征組合示意圖

三、主要實驗結果及可視化效果​

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

圖4 在不同情況下的定性結果,包括多面向文本、長文本、多語言文本、低分辨率文本、彎曲文本、密集文本。對于曲線文本檢測,貝塞爾曲線的控制點用紅色表示。

表1 ICDAR2015、MSRA-TD500、Total-Text和CTW1500的檢測結果

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

表2 在MLT-2017測試資料集上的檢測結果

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

表3 對MTWI資料集的檢測結果

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

表4 在IC15測試資料集和MLT17驗證資料集上進行了特征采樣數量的實驗

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

表5對特征分組網絡中transformer層的實驗

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

表6 在IC15測試資料集和MLT17驗證資料集上與基于transformer的方法進行比較

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法
CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

圖5 DETR、Deformable DETR、Conditional DETR和本文模型(RBox)的收斂曲線

表7 與基于Transformer的方法在flop、參數數量和推理速度上的比較

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法
CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

圖6 拓展至遙感資料DOTA-v1.0測試集的定性結果

表8 在DOTA-v1.0測試集上的檢測結果

CVPR 2022|特征采樣與分組:基于Transformer的場景文字檢測方法

四、總結與讨論​

本文提出了一種簡單而有效的基于Transformer的場景文本檢測網絡,與以往的場景文本檢測方法不同,該方法隻利用了少數包含前景文本幾何特征和上下文資訊的代表性特征就能夠有效地減少備援的背景噪聲,并且能夠改善自注意子產品在多尺度特征下高計算複雜度的問題。利用Transformer的特征聚合能力,可以獲得更精确的檢測框,且無需任何後處理子產品。本文所提出的方法,在有更先進的Transformer結構支援時,例如Swin Transformer,在各資料集上有更好的表現。充分的實驗表明,本文所提出的方法在多方向文本資料集和任意形狀文本資料集上取得了最優的結果,同時也在遙感資料集上展現了極具競争力的結果,進而證明了該方法的有效性。

五、相關資源​

論文位址:https://arxiv.org/abs/2203.15221

六、參考文獻​

[1]Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. In ECCV, 2020.

[2]Zobeir Raisi, Mohamed A Naiel, Georges Younes, Steven Wardell, and John S Zelek. Transformer-based text detection in the wild. In CVPR Workshop, 2021.

[3]Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In CVPR, 2017.

[4]Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou, Suman Ghosh, Andrew Bagdanov, Masakazu Iwamura, Jiri Matas, Lukas Neumann, Vijay Ramaseshan Chandrasekhar, Shijian Lu, et al. Icdar 2015 competition on robust reading. In ICDAR, 2015.

[5]Nibal Nayef, Fei Yin, Imen Bizid, Hyunsoo Choi, Yuan Feng, Dimosthenis Karatzas, Zhenbo Luo, Umapada Pal, Christophe Rigaud, Joseph Chazalon, et al. Icdar2017 robust reading challenge on multi-lingual scene text detection and script identification-rrc-mlt. In ICDAR, 2017.

[6]Rosanne Liu, Joel Lehman, Piero Molino, Felipe Petroski Such, Eric Frank, Alex Sergeev, and Jason Yosinski. An intriguing failing of convolutional neural networks and the coordconv solution. NeurIPS, 2018.

[7]Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, 2017.

原文作者:Jingqun Tang, Wenqing Zhang, Hongye Liu, MingKun Yang, Bo Jiang, Guanglong Hu, Xiang Bai

撰稿:唐景群

編排:高  學

審校:連宙輝

釋出:金連文