OCR綜述概覽
主要分為四個部分
文字識别、文本檢測、端到端文字識别和資料集的介紹
1. 文字識别
名額為f1-score
Conf. | Net | Title | SVT | IIIT5K | ICDAR13 |
---|---|---|---|---|---|
TPAMI2015 | CRNN | An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition | 0.808 | 0.782 | 0.867 |
CVPR2016 | RARE | Robust scene text recognition with automatic rectification | 0.819 | 0.819 | 0.886 |
ICCV2017 | FAN | Focusing Attention: Towards Accurate Text Recognition in Natural Images | 0.859 | 0.874 | 0.933 |
TPAMI2018 | ASTER | ASTER: An Attentional Scene Text Recognizer with Flexible Rectification | 0.936 | 0.934 | 0.918 |
PR2019 | MORAN | MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition | 0.883 | 0.912 | 0.924 |
CVPR2020 | SRN | Towards Accurate Scene Text Recognition With Semantic Reasoning Networks | 0.915 | 0.948 | 0.955 |
1、CRNN
- 首先CNN提取圖像卷積特征
- 然後LSTM進一步提取圖像卷積特征中的序列特征
- 最後引入CTC解決訓練時字元無法對齊的問題
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsICM38FdsYkRGZkRG9lcvx2bjxiNx8VZ6l2cs0zaIRWNCh0Y2J0MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnL2MTMyQTO0UTM0IjNwEjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
2、RARE
RARE是一個深度神經網絡,包括一個空間變換網絡Spatial Transformer Network (STN)和一個序列識别網絡Sequence Recognition Network (SRN)
兩個網絡同時用BP算法進行訓練。網絡結構如下:
提出了一個新穎且對不規則文本具有魯棒性的場景文字識别方法;
采用了基于注意力模型(attention-based)的STN架構。傳統的STN隻在普通的卷積神經網絡中測試;
在SRN編碼器中使用循環卷積結構。
3、FAN
- 提出注意力漂移的概念,解釋了現有注意力方法在複雜/低品質自然圖像上性能較差的原因。
- 開發了一種 FAN新方法來解決注意力漂移問題,這種方法在大多數現有方法都有的注意力子產品之外,還引入了一個全新的子產品——聚焦網絡(FN),該網絡可以使 AN偏離的注意力重新聚焦在目标區域上。
- 采用強大的基于 ResNet 的卷積神經網絡,以豐富場景文本圖像的深度表征。
- 在多個基準上實施大量實驗,展示了我們的方法與現有方法相比的性能優越性。
4、ASTER
本文方法主要解決不規則排列文字的文字識别問題,論文為RARE的改進版
5、MORAN
面向不規則及通用場景文本。MORAN由矯正子網絡MORN和識别子網絡ASRN組成,在矯正子網絡MORN中設計了一種新穎的像素級弱監督學習機制來進行不規則文本的形狀糾正,以降低不規則文本的識别難度。矯正子網絡和識别子網絡可端到端聯合訓練,也不需要字元位置或像素級分割等監督資訊,使得網絡的訓練大大簡化。
- 修正網絡MORN采用弱監督的方式進行
- 提出了fractional pickup方法進一步提升attention的靈敏度
- 提出了curriculum learning strategy用于網絡整體訓練
6、SRN
由四部分組成:基礎網絡Backbone、并行的視覺特征提取子產品(PVAM)、全局語義推理子產品(GSRM) 和視覺語義融合的解碼器(VSFD)
2. 文本檢測
名額為f1-score
Conf. | Net | Title | ICDAR13 | ICDAR15 | CTW1500 |
---|---|---|---|---|---|
ECCV2016 | CTPN | Detecting Text in Natural Image with Connectionist Text Proposal Network | 0.8215 | 0.6085 | 0.569 |
CVPR2017 | SegLink | Detecting Oriented Text in Natural Images by Linking Segments | 0.853 | 0.75 | |
CVPR2017 | EAST | EAST: An Efficient and Accurate Scene Text Detector | 0.8072 | 0.604 | |
arXiv2018 | PSENet | Shape Robust Text Detection with Progressive Scale Expansion Network | 0.8721 | 0.822 | |
AAAI2019 | DBNet | Real-time Scene Text Detection with Differentiable Binarization | 0.847 | 0.834 | |
CVPR2021 | FCENet | Fourier Contour Embedding for Arbitrary-Shaped Text Detection | 0.862 | 0.855 |
1、CTPN
隻能檢測水準文本,通過Faster RCNN+LSTM預測固定寬度的文本候選框,在後處理部分再将這些小文本段連接配接起來,得到文本行。
- 将文本檢測任務轉化為一連串小尺度文本框的檢測;
- 引入RNN提升文本檢測效果;
- Side-refinement(邊界優化)提升文本框邊界預測精準度。
2、 SegLink
- 與CTPN思想類似,都是先找出文本行的一部分,然後再連接配接所有的部分,組成一個完整的文本行;
- 在SSD基礎上加入了旋轉角度的學習;
- 在小部分文本框之前用連接配接線(相鄰框的中點連線)來表示屬不屬于同一個文本框,也是用網絡來學習;
- 使用融合規則将各個階段的框資訊和線資訊進行融合,組成文本行。
3、 EAST
- 提出了一個由兩階段組成的場景文本檢測方法:全卷積網絡階段和NMS階段。
- 該pipeline可靈活生成word level或linelevel上文本框的預測,預測的幾何形狀可為旋轉框或水準框。
- 算法在準确性和速度上優于最先進的方法。
4、PSENet
主幹 resnet
- 是一個基于像素分割的方法,能夠精确地定位任意形狀的文本執行個體;
-
提出了漸進式擴充算法,即使兩個文本執行個體離得很近也可以分開,進而保證文本執行個體的準确位置;
從最小尺度的kernels開始擴充,最小的kernels可以把緊靠的文本執行個體分開;逐漸擴充到更大的kernels;直到擴充到最大的kernels,組成最終的結果。
5、DBNet
傳統的基于分割的文本檢測的後處理方法比較複雜,提出差分二值化
- 在基準資料集上有良好的表現,其中包括水準、多個方向、彎曲的文本。
- 比之前的方法要快很多,因為DB可以提供健壯的二值化圖,進而大大簡化了後處理過程。
- 使用輕量級的backbone(ResNet18)也有很好的表現。
- DB子產品在推理過程中可以去除,是以不占用額外的記憶體和時間的消耗。
6、FCENet
着重于對任意形狀文本包圍框的表示方法模組化,提出了可以精确地逼近任何封閉曲線的傅裡葉輪廓嵌入方法和針對此文本框表達方法設計的FCENet。
該算法在高度彎曲文本上具有優異的檢測性能,且具有良好的泛化能力。在沒有額外資料集參與預訓練的情況下,在CTW1500、Total-Text上的檢測效果達到了SOTA。
3. 端到端文字識别
- 由于檢測和識别是高度相關的,是以将檢測和識别統一到一個模型裡面,就使得圖像的feature可以被共享利用。
- 檢測和識别這兩種任務可以是互補的,更好的檢測結果可以提升識别的準确率,識别的資訊也可以被用來精修檢測的結果。
Conf. | Net | Title | ICDAR13 | ICDAR15 |
---|---|---|---|---|
ICCV2017 | Towards End-to-end Text Spotting with Convolution Recurrent Neural Network | 0.8459 | ||
CVPR2018 | FOTS | FOTS: Fast Oriented Text Spotting with a Unified Network | 0.8477 | 0.6533 |
ECCV2018 | Mask TextSpotter | Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes | 0.865 | 0.624 |
ICCV2019 | CharNet | Convolutional Character Networks | 0.7108 | |
ECCV2020 | Mask TextSpotterV3 | Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting | 0.742 |
1、
a.end-to-end方式訓練出來的模型可以學習到更豐富的圖像特征,并且這種特征可以被兩種不同任務所共享,可以有效的節省時間。
b.論文中提出了一種全新的region feature抽取方法。這種feature抽取方法可以很好的相容文本bbox原始長寬比以及避免圖像的扭曲,而且ROI pooling可以生成具有不同長度的feature maps。
c.提出了一種類似課程學習政策的方法用一種逐漸增加圖像複雜性的資料集來訓練模型。
2、FOTS
- End-to-end架構的解決了角度文本端到端識别的問題;
- RoI Rotate子產品的運用,橋接了detection和recogniton
- 模型小、速度快、效果好
3、Mask TextSpotter
Mask TextSpotter利用簡單且平滑的端到端學習過程,通過語義分割獲得精确的文本檢測和識别。此外,它在處理不規則形狀的文本執行個體(例如,彎曲文本)方面優于之前的方法。
識别部分隻能識别26個字母+10個數字
4、CharNet
整個網絡分為兩個大的分支,上面的分支用來進行字元檢測和識别(整體);下面的分支用來檢測字元中的每一個文本(單個文字或字元)。
5、Mask TextSpotterV3
4. 資料集
資料集 | 資料語言 大小 | 簡要介紹 | 标注格式 | 下載下傳位址 |
---|---|---|---|---|
ICDAR_2013 | 語言: 英文 train:229 test:233 | 水準文本 | x1 y1 x2 y2 text | 下載下傳連結. |
ICDAR_2015 | 語言: 英文 train:1000 test:500 | 傾斜文本 | x1,y1,x2,y2,x3,y3,x4,y4,text | 下載下傳連結. |
ICDAR2017-MLT | 語言: 混合 train:7200 test:1800 | 多語言文本 | x1,y1,x2,y2,x3,y3,x4,y4,text | 下載下傳連結. 提取碼: z9ey |
ICDAR2017-RCTW | 語言: 混合 train:8034 test:4229 | 主要是中文 | x1,y1,x2,y2,x3,y3,x4,y4,<識别難易程度>,text | 下載下傳連結 |
天池比賽2018 | 語言: 混合 train:10000 test:10000 | 合成圖像,産品描述,網絡廣告 複雜排版,密集的小文本或多語言文本,水印等 | x1,y1,x2,y2,x3,y3,x4,y4,text | 檢測。 識别 |
ICDAR2019-MLT | 語言: 混合 train:10000 test:10000 | 水準文本 每個連續的1000個圖像包含一種主要語言的文本 | x1,y1,x2,y2,x3,y3,x4,y4,語言類别,text | 下載下傳連結. 提取碼: xofo |
ICDAR2019-LSVT | 語言: 混合 train:30000 test:20000 | 中文街景圖像 | json格式标簽 | 下載下傳連結 |
ICDAR2019-ReCTS | 語言: 混合 train:20000 test:5000 | 餐廳招牌上的中文文本 | json格式标簽 | 下載下傳連結 |
ICDAR2019-ArT | 語言: 混合 train:5603 test:4563 | 包含水準、多方向和彎曲等多種形狀的文本 | json格式标簽 | 下載下傳連結 |
Synth800k | 語言: 英文 80k | 每個文本執行個體均使用文本字元串、字級和字元級邊界框進行注釋 | 基于字元标注 | 下載下傳連結 |
360萬中文資料集 | 語言: 中文 360k | 每個樣本固定10個字元,字元随機截取自語料庫中的句子 | 每張圖檔由10個字元構成 | 下載下傳連結. 提取碼:lu7m |
中文街景資料集CTW | 語言:中文 32285 | 包含平面文本,凸起文本,城市文本,農村文本, 低亮度文本,遠處文本,部分遮擋文本 | 基于字元标注的中文街景圖檔 | 下載下傳連結 |
百度中文場景文字識别 | 語言: 混合 29萬 | 由街景圖檔中的文字行區域(如店鋪标牌、地标等)截取出來而形成 圖像經過一些預處理:将文字區域利用仿射變化,等比映射為一張高為48像素的圖檔 | 下載下傳連結 | |
MSRA-TD500 | 語言: 中英文 Training:300 Test:200 |
| .gt格式标簽 | 下載下傳連結 |
Total-Text | 語言: 英文 Training:1255 Test:300 | 彎曲文本 | 下載下傳連結 |