多種文本檢測算法性能對比及算法介紹
(https://blog.csdn.net/qq_39707285/article/details/108754444)
論文題目:EAST: An Efficient and Accurate Scene Text Detector
DATA:2017年7月10日
Abstract
之前的文字檢測算法在處理較難的場景時往往會出錯,即使是使用了深度學習算法的也表現的不好,因為這些算法由多個步驟組成,不僅耗時,表現還不好。本文提出了一個簡單的能夠快速準确定位場景文字的算法,改算法直接預測任意形狀或矩形word或者行文本。在 ICDAR 2015, COCO-Text and MSRA-TD500資料集上都領先于之前的算法,在ICDAR 2015資料集上,該算法在720p的圖檔上以13.2fps的速度得到了0.7820的F-score。
Introduction
該算法有三大貢獻:
- 該算法有兩部分組成,第一部分是全卷機網絡,直接預測文本區域,另一部分是NMS合并,把檢測的結果通過nms合并成最終結果
- 改算法無論是單詞還是行文本都可以預測,形狀可以是旋轉的boxes or quadrangles
- 無論在速度還是精度上都領先于之前的算法
Related Work
之前的算法大部分由多步組成,例如去除假陽、候選聚合、線和行的組成等,如圖2(a-d)所示。這些方法需要不斷的進行微調,導緻效果一般,并且處理時間增加。
Methodology
該模型直接利用全卷機神經網絡輸出密集的像素級别detection來預測文本,省去了候選方案、文本區域形成和單詞劃分等互動步驟,預處理步驟僅包括門檻值設定和nms。把改算法稱之為EAST,since it is an Efficient and Accuracy Scene Text detection pipeline。
Pipeline
FCN的第一個輸出通道是score map,每個score值限定在[0,1],其餘的通道代表從每個像素的視圖中包圍該單詞的幾何形狀,這個分數代表在同一地點預測的幾何形狀的置信度。
檢測不同文本形狀有兩種形式, rotated box (RBOX) and quadrangle (QUAD),使用了不同loss函數,每一個預測結果大于某個門檻值的進入下一步nms處理,nms處理結果作為最終的輸出。