天天看點

OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

OCR綜述概覽

主要分為四個部分

文字識别、文本檢測、端到端文字識别和資料集的介紹

1. 文字識别

名額為f1-score

Conf. Net Title SVT IIIT5K ICDAR13
TPAMI2015 CRNN

An end-to-end trainable neural network for image-based sequence

recognition and its application to scene text recognition

0.808 0.782 0.867
CVPR2016 RARE Robust scene text recognition with automatic rectification 0.819 0.819 0.886
ICCV2017 FAN Focusing Attention: Towards Accurate Text Recognition in Natural Images 0.859 0.874 0.933
TPAMI2018 ASTER ASTER: An Attentional Scene Text Recognizer with Flexible Rectification 0.936 0.934 0.918
PR2019 MORAN MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition 0.883 0.912 0.924
CVPR2020 SRN Towards Accurate Scene Text Recognition With Semantic Reasoning Networks 0.915 0.948 0.955

1、CRNN

  • 首先CNN提取圖像卷積特征
  • 然後LSTM進一步提取圖像卷積特征中的序列特征
  • 最後引入CTC解決訓練時字元無法對齊的問題
OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

2、RARE

RARE是一個深度神經網絡,包括一個空間變換網絡Spatial Transformer Network (STN)和一個序列識别網絡Sequence Recognition Network (SRN)

兩個網絡同時用BP算法進行訓練。網絡結構如下:

OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

提出了一個新穎且對不規則文本具有魯棒性的場景文字識别方法;

采用了基于注意力模型(attention-based)的STN架構。傳統的STN隻在普通的卷積神經網絡中測試;

在SRN編碼器中使用循環卷積結構。

3、FAN

  • 提出注意力漂移的概念,解釋了現有注意力方法在複雜/低品質自然圖像上性能較差的原因。
  • 開發了一種 FAN新方法來解決注意力漂移問題,這種方法在大多數現有方法都有的注意力子產品之外,還引入了一個全新的子產品——聚焦網絡(FN),該網絡可以使 AN偏離的注意力重新聚焦在目标區域上。
  • 采用強大的基于 ResNet 的卷積神經網絡,以豐富場景文本圖像的深度表征。
  • 在多個基準上實施大量實驗,展示了我們的方法與現有方法相比的性能優越性。
OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

4、ASTER

本文方法主要解決不規則排列文字的文字識别問題,論文為RARE的改進版

OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽
OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

5、MORAN

面向不規則及通用場景文本。MORAN由矯正子網絡MORN和識别子網絡ASRN組成,在矯正子網絡MORN中設計了一種新穎的像素級弱監督學習機制來進行不規則文本的形狀糾正,以降低不規則文本的識别難度。矯正子網絡和識别子網絡可端到端聯合訓練,也不需要字元位置或像素級分割等監督資訊,使得網絡的訓練大大簡化。

OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽
  • 修正網絡MORN采用弱監督的方式進行
  • 提出了fractional pickup方法進一步提升attention的靈敏度
  • 提出了curriculum learning strategy用于網絡整體訓練

6、SRN

由四部分組成:基礎網絡Backbone、并行的視覺特征提取子產品(PVAM)、全局語義推理子產品(GSRM) 和視覺語義融合的解碼器(VSFD)

OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

2. 文本檢測

名額為f1-score

Conf. Net Title ICDAR13 ICDAR15 CTW1500
ECCV2016 CTPN Detecting Text in Natural Image with Connectionist Text Proposal Network 0.8215 0.6085 0.569
CVPR2017 SegLink Detecting Oriented Text in Natural Images by Linking Segments 0.853 0.75
CVPR2017 EAST EAST: An Efficient and Accurate Scene Text Detector 0.8072 0.604
arXiv2018 PSENet Shape Robust Text Detection with Progressive Scale Expansion Network 0.8721 0.822
AAAI2019 DBNet Real-time Scene Text Detection with Differentiable Binarization 0.847 0.834
CVPR2021 FCENet Fourier Contour Embedding for Arbitrary-Shaped Text Detection 0.862 0.855

1、CTPN

隻能檢測水準文本,通過Faster RCNN+LSTM預測固定寬度的文本候選框,在後處理部分再将這些小文本段連接配接起來,得到文本行。

  • 将文本檢測任務轉化為一連串小尺度文本框的檢測;
  • 引入RNN提升文本檢測效果;
  • Side-refinement(邊界優化)提升文本框邊界預測精準度。
OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽
OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

2、 SegLink

  • 與CTPN思想類似,都是先找出文本行的一部分,然後再連接配接所有的部分,組成一個完整的文本行;
  • 在SSD基礎上加入了旋轉角度的學習;
  • 在小部分文本框之前用連接配接線(相鄰框的中點連線)來表示屬不屬于同一個文本框,也是用網絡來學習;
  • 使用融合規則将各個階段的框資訊和線資訊進行融合,組成文本行。
OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

3、 EAST

  • 提出了一個由兩階段組成的場景文本檢測方法:全卷積網絡階段和NMS階段。
  • 該pipeline可靈活生成word level或linelevel上文本框的預測,預測的幾何形狀可為旋轉框或水準框。
  • 算法在準确性和速度上優于最先進的方法。
OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

4、PSENet

主幹 resnet

  • 是一個基于像素分割的方法,能夠精确地定位任意形狀的文本執行個體;
  • 提出了漸進式擴充算法,即使兩個文本執行個體離得很近也可以分開,進而保證文本執行個體的準确位置;

    從最小尺度的kernels開始擴充,最小的kernels可以把緊靠的文本執行個體分開;逐漸擴充到更大的kernels;直到擴充到最大的kernels,組成最終的結果。

OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

5、DBNet

傳統的基于分割的文本檢測的後處理方法比較複雜,提出差分二值化

  • 在基準資料集上有良好的表現,其中包括水準、多個方向、彎曲的文本。
  • 比之前的方法要快很多,因為DB可以提供健壯的二值化圖,進而大大簡化了後處理過程。
  • 使用輕量級的backbone(ResNet18)也有很好的表現。
  • DB子產品在推理過程中可以去除,是以不占用額外的記憶體和時間的消耗。
OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

6、FCENet

着重于對任意形狀文本包圍框的表示方法模組化,提出了可以精确地逼近任何封閉曲線的傅裡葉輪廓嵌入方法和針對此文本框表達方法設計的FCENet。

該算法在高度彎曲文本上具有優異的檢測性能,且具有良好的泛化能力。在沒有額外資料集參與預訓練的情況下,在CTW1500、Total-Text上的檢測效果達到了SOTA。

OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

3. 端到端文字識别

  • 由于檢測和識别是高度相關的,是以将檢測和識别統一到一個模型裡面,就使得圖像的feature可以被共享利用。
  • 檢測和識别這兩種任務可以是互補的,更好的檢測結果可以提升識别的準确率,識别的資訊也可以被用來精修檢測的結果。
Conf. Net Title ICDAR13 ICDAR15
ICCV2017 Towards End-to-end Text Spotting with Convolution Recurrent Neural Network 0.8459
CVPR2018 FOTS FOTS: Fast Oriented Text Spotting with a Unified Network 0.8477 0.6533
ECCV2018 Mask TextSpotter Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes 0.865 0.624
ICCV2019 CharNet Convolutional Character Networks 0.7108
ECCV2020 Mask TextSpotterV3 Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting 0.742

1、

OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

a.end-to-end方式訓練出來的模型可以學習到更豐富的圖像特征,并且這種特征可以被兩種不同任務所共享,可以有效的節省時間。

b.論文中提出了一種全新的region feature抽取方法。這種feature抽取方法可以很好的相容文本bbox原始長寬比以及避免圖像的扭曲,而且ROI pooling可以生成具有不同長度的feature maps。

c.提出了一種類似課程學習政策的方法用一種逐漸增加圖像複雜性的資料集來訓練模型。

2、FOTS

OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽
  • End-to-end架構的解決了角度文本端到端識别的問題;
  • RoI Rotate子產品的運用,橋接了detection和recogniton
  • 模型小、速度快、效果好

3、Mask TextSpotter

Mask TextSpotter利用簡單且平滑的端到端學習過程,通過語義分割獲得精确的文本檢測和識别。此外,它在處理不規則形狀的文本執行個體(例如,彎曲文本)方面優于之前的方法。

OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

識别部分隻能識别26個字母+10個數字

4、CharNet

整個網絡分為兩個大的分支,上面的分支用來進行字元檢測和識别(整體);下面的分支用來檢測字元中的每一個文本(單個文字或字元)。

OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

5、Mask TextSpotterV3

OCR論文綜述(含文字識别、文本檢測、端到端和資料集合)OCR綜述概覽

4. 資料集

資料集 資料語言 大小 簡要介紹 标注格式 下載下傳位址
ICDAR_2013 語言: 英文 train:229 test:233 水準文本 x1 y1 x2 y2 text 下載下傳連結.
ICDAR_2015 語言: 英文 train:1000 test:500 傾斜文本 x1,y1,x2,y2,x3,y3,x4,y4,text 下載下傳連結.
ICDAR2017-MLT 語言: 混合 train:7200 test:1800 多語言文本 x1,y1,x2,y2,x3,y3,x4,y4,text 下載下傳連結. 提取碼: z9ey
ICDAR2017-RCTW 語言: 混合 train:8034 test:4229 主要是中文 x1,y1,x2,y2,x3,y3,x4,y4,<識别難易程度>,text 下載下傳連結
天池比賽2018 語言: 混合 train:10000 test:10000

合成圖像,産品描述,網絡廣告

複雜排版,密集的小文本或多語言文本,水印等

x1,y1,x2,y2,x3,y3,x4,y4,text 檢測。 識别
ICDAR2019-MLT 語言: 混合 train:10000 test:10000

水準文本

每個連續的1000個圖像包含一種主要語言的文本

x1,y1,x2,y2,x3,y3,x4,y4,語言類别,text 下載下傳連結. 提取碼: xofo
ICDAR2019-LSVT 語言: 混合 train:30000 test:20000 中文街景圖像 json格式标簽 下載下傳連結
ICDAR2019-ReCTS 語言: 混合 train:20000 test:5000 餐廳招牌上的中文文本 json格式标簽 下載下傳連結
ICDAR2019-ArT 語言: 混合 train:5603 test:4563 包含水準、多方向和彎曲等多種形狀的文本 json格式标簽 下載下傳連結
Synth800k 語言: 英文 80k 每個文本執行個體均使用文本字元串、字級和字元級邊界框進行注釋 基于字元标注 下載下傳連結
360萬中文資料集 語言: 中文 360k 每個樣本固定10個字元,字元随機截取自語料庫中的句子 每張圖檔由10個字元構成 下載下傳連結. 提取碼:lu7m
中文街景資料集CTW 語言:中文 32285

包含平面文本,凸起文本,城市文本,農村文本,

低亮度文本,遠處文本,部分遮擋文本

基于字元标注的中文街景圖檔 下載下傳連結
百度中文場景文字識别 語言: 混合 29萬

由街景圖檔中的文字行區域(如店鋪标牌、地标等)截取出來而形成

圖像經過一些預處理:将文字區域利用仿射變化,等比映射為一張高為48像素的圖檔

下載下傳連結
MSRA-TD500 語言: 中英文 Training:300 Test:200
  • 多方向文本檢測
  • 大部分文本都在引導牌上
.gt格式标簽 下載下傳連結
Total-Text 語言: 英文 Training:1255 Test:300 彎曲文本 下載下傳連結

繼續閱讀