天天看點

文字檢測算法——EAST閱讀筆記AbstractIntroductionRelated WorkMethodology

多種文本檢測算法性能對比及算法介紹

(https://blog.csdn.net/qq_39707285/article/details/108754444)

論文題目:EAST: An Efficient and Accurate Scene Text Detector

DATA:2017年7月10日

Abstract

之前的文字檢測算法在處理較難的場景時往往會出錯,即使是使用了深度學習算法的也表現的不好,因為這些算法由多個步驟組成,不僅耗時,表現還不好。本文提出了一個簡單的能夠快速準确定位場景文字的算法,改算法直接預測任意形狀或矩形word或者行文本。在 ICDAR 2015, COCO-Text and MSRA-TD500資料集上都領先于之前的算法,在ICDAR 2015資料集上,該算法在720p的圖檔上以13.2fps的速度得到了0.7820的F-score。

文字檢測算法——EAST閱讀筆記AbstractIntroductionRelated WorkMethodology

Introduction

該算法有三大貢獻:

  1. 該算法有兩部分組成,第一部分是全卷機網絡,直接預測文本區域,另一部分是NMS合并,把檢測的結果通過nms合并成最終結果
  2. 改算法無論是單詞還是行文本都可以預測,形狀可以是旋轉的boxes or quadrangles
  3. 無論在速度還是精度上都領先于之前的算法

Related Work

之前的算法大部分由多步組成,例如去除假陽、候選聚合、線和行的組成等,如圖2(a-d)所示。這些方法需要不斷的進行微調,導緻效果一般,并且處理時間增加。

文字檢測算法——EAST閱讀筆記AbstractIntroductionRelated WorkMethodology

Methodology

該模型直接利用全卷機神經網絡輸出密集的像素級别detection來預測文本,省去了候選方案、文本區域形成和單詞劃分等互動步驟,預處理步驟僅包括門檻值設定和nms。把改算法稱之為EAST,since it is an Efficient and Accuracy Scene Text detection pipeline。

Pipeline

FCN的第一個輸出通道是score map,每個score值限定在[0,1],其餘的通道代表從每個像素的視圖中包圍該單詞的幾何形狀,這個分數代表在同一地點預測的幾何形狀的置信度。

檢測不同文本形狀有兩種形式, rotated box (RBOX) and quadrangle (QUAD),使用了不同loss函數,每一個預測結果大于某個門檻值的進入下一步nms處理,nms處理結果作為最終的輸出。

繼續閱讀