天天看點

文本檢測算法:TextBoxes(AAAI2017)1. 論文要點2. 模型結構3. Word spotting and end-to-end recognition4. 實驗結果4.1 文本檢測4.2 Word spotting and end-to-end recognition4.3 缺點

多種文本檢測算法性能對比及算法介紹

(https://blog.csdn.net/qq_39707285/article/details/108754444)

TextBoxes: A Fast Text Detector with a Single Deep Neural Network

  • 1. 論文要點
  • 2. 模型結構
    • 2.1 整體結構
    • 2.2 text-box layers
    • 2.3 損失函數
    • 2.4 多尺度輸入
  • 3. Word spotting and end-to-end recognition
  • 4. 實驗結果
  • 4.1 文本檢測
  • 4.2 Word spotting and end-to-end recognition
  • 4.3 缺點

1. 論文要點

提出了一個end-to-end可訓練的快速文本檢測算法,叫做 TextBoxes,能後一階段的完成檢測任務,在準确性和高效性方面都表現優異,且該算法除了NMS,沒有使用任何的後處理步驟。 TextBoxes能夠達到一張圖0.09秒的速度,另外,結合 CRNN文本識别算法,能夠在text spotting任務中達到最優表現。

2. 模型結構

2.1 整體結構

文本檢測算法:TextBoxes(AAAI2017)1. 論文要點2. 模型結構3. Word spotting and end-to-end recognition4. 實驗結果4.1 文本檢測4.2 Word spotting and end-to-end recognition4.3 缺點

TextBoxes整體網絡結構如圖1所示,在VGG-16的基礎上新增9個額外的卷積層,共28層,類似于SSD,在不同的層之後都有輸出層,稱之為 text-box layers, text-box layers的輸出通道是72(2個通道預測分數,4個通道預測位置偏移量,共12個anchor(這裡說的anchor就是SSD中講的default box),是以共(2+4)*12=72個通道),整合所有的 text-box layers的輸出結果後再使用NMS處理,就得到了最終的結果。

2.2 text-box layers

假定圖檔和特征圖的尺寸分别為 ( w i m , h w i m ) (w_{im},h_{wim}) (wim​,hwim​)和 ( w m a p , h m a p ) (w_{map},h_{map}) (wmap​,hmap​),在特征圖每個位置 ( i , j ) (i,j) (i,j)上anchor為 b 0 = ( x 0 , y 0 , w 0 , h 0 ) b_0=(x_0,y_0,w_0,h_0) b0​=(x0​,y0​,w0​,h0​), text-box layers的輸出為 ( Δ x , Δ y , Δ w , Δ h , c ) (\Delta x,\Delta y,\Delta w,\Delta h,c) (Δx,Δy,Δw,Δh,c),其中

文本檢測算法:TextBoxes(AAAI2017)1. 論文要點2. 模型結構3. Word spotting and end-to-end recognition4. 實驗結果4.1 文本檢測4.2 Word spotting and end-to-end recognition4.3 缺點

差別于SSD中anchor的設計,anchor的縱橫比更加大,因為文本檢測相較于傳統的檢測任務中,目标有更大的縱橫比。 TextBoxes設計了6個比例,分别是1,2,3,5,7,10。這使得預設框在水準方向上密集,而垂直方向上很稀疏,這導緻比對框效果差,為解決這個問題,設計了垂直方向的偏移,如圖2所示,圖中隻畫出了比例為1和5的anchor,黑色的為比例為5的anchor,藍色的是比例為1的anchor,綠色和紅色的分别為比例為5和1的anchor的偏移結果,垂直偏移值為單元格高度的一半。

文本檢測算法:TextBoxes(AAAI2017)1. 論文要點2. 模型結構3. Word spotting and end-to-end recognition4. 實驗結果4.1 文本檢測4.2 Word spotting and end-to-end recognition4.3 缺點

此外在 text-box layers中替換傳統的33卷積為不規則的15和5*1卷積核,這種 inception-style過濾器産生矩形接收場,更好地适合具有較大縱橫比的文本,也避免了方形接收場會帶來的噪聲信号。

2.3 損失函數

損失函數和SSD中一樣,定義為:

文本檢測算法:TextBoxes(AAAI2017)1. 論文要點2. 模型結構3. Word spotting and end-to-end recognition4. 實驗結果4.1 文本檢測4.2 Word spotting and end-to-end recognition4.3 缺點

其中 N N N是與GT比對到的anchor總數, α \alpha α設定為1, L l o c L_{loc} Lloc​使用smooth L1 loss, L c o n f L_{conf} Lconf​使用softmax loss。

2.4 多尺度輸入

即使在anchor和卷積濾波器上進行優化,也仍然很難檢測出極端縱橫比和大小的文本。為此,采用多種初度的輸入去訓練模型,對于每張圖檔,分别rescale到300300,700700,300700,500700,1600*1600。

3. Word spotting and end-to-end recognition

End-to-end的識别包括文本檢測和文本識别兩部分,直接檢測之後使用識别算法就可以完成 End-to-end的識别,但是可以将檢測算法和識别算法結合起來,互相優化,識别算法可以幫助消除假陽性檢測結果,這些結果不太可能是有意義的詞,例如。 重複的書寫。特别的是,當給定識别詞典時,識别器可以有效地删除檢測到的不比對任何給定單詞的包圍框。

本文使用 CRNN作為文本識别算法, p ( w ∣ I ) p(w|I) p(w∣I)表示識别加過的機率,其中 I I I表示輸入圖檔, w w w表示字元序列,把機率看作一個比對分數,它測量圖像與特定單詞的相容性, 然後,檢測分數是給定詞彙中所有單詞中的最大分數:

文本檢測算法:TextBoxes(AAAI2017)1. 論文要點2. 模型結構3. Word spotting and end-to-end recognition4. 實驗結果4.1 文本檢測4.2 Word spotting and end-to-end recognition4.3 缺點

其中 W W W代表給定的詞典, 如果沒有指定詞典,使用由90k個英語單詞組成的通用詞典。

使用公式3作為文本檢測分數,但是在所有的文本框上使用公式3進行計算比較耗時,是以,首先使用 TextBoxes,使用較低的分數門檻值和高的NMS門檻值生成大量的候選框,在ICDAR2013上儲存35個候選框,然後再使用公式3重新評估分數,接着使用第二個分數門檻值和NMS門檻值。當使用多個尺寸輸入時,在每個尺寸上分别生成候選框,并對所有量尺寸的候選框執行上述步驟。

這裡的NMS有所修改,對于識别為同一單詞的框,采用較低的重疊門檻值,以便對同一單詞的框施加更強的抑制。

4. 實驗結果

在三個不同任務中(包括文本檢測、字檢測和端到端識别)中分别驗證了TextBoxes。

4.1 文本檢測

文本檢測算法:TextBoxes(AAAI2017)1. 論文要點2. 模型結構3. Word spotting and end-to-end recognition4. 實驗結果4.1 文本檢測4.2 Word spotting and end-to-end recognition4.3 缺點

4.2 Word spotting and end-to-end recognition

文本檢測算法:TextBoxes(AAAI2017)1. 論文要點2. 模型結構3. Word spotting and end-to-end recognition4. 實驗結果4.1 文本檢測4.2 Word spotting and end-to-end recognition4.3 缺點

4.3 缺點

TextBoxes在大多數情況下表現良好。 然而,它仍然無法處理一些困難的情況,如過度曝光和大字元間距,如圖3和4所示。

文本檢測算法:TextBoxes(AAAI2017)1. 論文要點2. 模型結構3. Word spotting and end-to-end recognition4. 實驗結果4.1 文本檢測4.2 Word spotting and end-to-end recognition4.3 缺點
文本檢測算法:TextBoxes(AAAI2017)1. 論文要點2. 模型結構3. Word spotting and end-to-end recognition4. 實驗結果4.1 文本檢測4.2 Word spotting and end-to-end recognition4.3 缺點

繼續閱讀