OCR綜述概覽

主要分為四個部分

文字識别、文本檢測、端到端文字識别和資料集的介紹

1. 文字識别

名額為f1-score

Conf.	Net	Title	SVT	IIIT5K	ICDAR13
TPAMI2015	CRNN	An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition	0.808	0.782	0.867
CVPR2016	RARE	Robust scene text recognition with automatic rectification	0.819	0.819	0.886
ICCV2017	FAN	Focusing Attention: Towards Accurate Text Recognition in Natural Images	0.859	0.874	0.933
TPAMI2018	ASTER	ASTER: An Attentional Scene Text Recognizer with Flexible Rectification	0.936	0.934	0.918
PR2019	MORAN	MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition	0.883	0.912	0.924
CVPR2020	SRN	Towards Accurate Scene Text Recognition With Semantic Reasoning Networks	0.915	0.948	0.955

1、CRNN

首先CNN提取圖像卷積特征
然後LSTM進一步提取圖像卷積特征中的序列特征
最後引入CTC解決訓練時字元無法對齊的問題

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

2、RARE

RARE是一個深度神經網絡，包括一個空間變換網絡Spatial Transformer Network (STN)和一個序列識别網絡Sequence Recognition Network (SRN)

兩個網絡同時用BP算法進行訓練。網絡結構如下：

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

提出了一個新穎且對不規則文本具有魯棒性的場景文字識别方法；

采用了基于注意力模型（attention-based）的STN架構。傳統的STN隻在普通的卷積神經網絡中測試；

在SRN編碼器中使用循環卷積結構。

3、FAN

提出注意力漂移的概念，解釋了現有注意力方法在複雜/低品質自然圖像上性能較差的原因。
開發了一種 FAN新方法來解決注意力漂移問題，這種方法在大多數現有方法都有的注意力子產品之外，還引入了一個全新的子產品——聚焦網絡（FN），該網絡可以使 AN偏離的注意力重新聚焦在目标區域上。
采用強大的基于 ResNet 的卷積神經網絡，以豐富場景文本圖像的深度表征。
在多個基準上實施大量實驗，展示了我們的方法與現有方法相比的性能優越性。

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

4、ASTER

本文方法主要解決不規則排列文字的文字識别問題，論文為RARE的改進版

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

5、MORAN

面向不規則及通用場景文本。MORAN由矯正子網絡MORN和識别子網絡ASRN組成，在矯正子網絡MORN中設計了一種新穎的像素級弱監督學習機制來進行不規則文本的形狀糾正，以降低不規則文本的識别難度。矯正子網絡和識别子網絡可端到端聯合訓練，也不需要字元位置或像素級分割等監督資訊，使得網絡的訓練大大簡化。

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

修正網絡MORN采用弱監督的方式進行
提出了fractional pickup方法進一步提升attention的靈敏度
提出了curriculum learning strategy用于網絡整體訓練

6、SRN

由四部分組成：基礎網絡Backbone、并行的視覺特征提取子產品(PVAM)、全局語義推理子產品(GSRM) 和視覺語義融合的解碼器(VSFD)

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

2. 文本檢測

名額為f1-score

Conf.	Net	Title	ICDAR13	ICDAR15	CTW1500
ECCV2016	CTPN	Detecting Text in Natural Image with Connectionist Text Proposal Network	0.8215	0.6085	0.569
CVPR2017	SegLink	Detecting Oriented Text in Natural Images by Linking Segments	0.853	0.75
CVPR2017	EAST	EAST: An Efficient and Accurate Scene Text Detector	0.8072	0.604
arXiv2018	PSENet	Shape Robust Text Detection with Progressive Scale Expansion Network	0.8721	0.822
AAAI2019	DBNet	Real-time Scene Text Detection with Differentiable Binarization	0.847	0.834
CVPR2021	FCENet	Fourier Contour Embedding for Arbitrary-Shaped Text Detection	0.862	0.855

1、CTPN

隻能檢測水準文本，通過Faster RCNN+LSTM預測固定寬度的文本候選框，在後處理部分再将這些小文本段連接配接起來，得到文本行。

将文本檢測任務轉化為一連串小尺度文本框的檢測；
引入RNN提升文本檢測效果；
Side-refinement（邊界優化）提升文本框邊界預測精準度。

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

2、 SegLink

與CTPN思想類似，都是先找出文本行的一部分，然後再連接配接所有的部分，組成一個完整的文本行；
在SSD基礎上加入了旋轉角度的學習；
在小部分文本框之前用連接配接線（相鄰框的中點連線）來表示屬不屬于同一個文本框，也是用網絡來學習；
使用融合規則将各個階段的框資訊和線資訊進行融合，組成文本行。

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

3、 EAST

提出了一個由兩階段組成的場景文本檢測方法：全卷積網絡階段和NMS階段。
該pipeline可靈活生成word level或linelevel上文本框的預測，預測的幾何形狀可為旋轉框或水準框。
算法在準确性和速度上優于最先進的方法。

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

4、PSENet

主幹 resnet

是一個基于像素分割的方法，能夠精确地定位任意形狀的文本執行個體；
提出了漸進式擴充算法，即使兩個文本執行個體離得很近也可以分開，進而保證文本執行個體的準确位置；

從最小尺度的kernels開始擴充，最小的kernels可以把緊靠的文本執行個體分開；逐漸擴充到更大的kernels；直到擴充到最大的kernels，組成最終的結果。

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

5、DBNet

傳統的基于分割的文本檢測的後處理方法比較複雜，提出差分二值化

在基準資料集上有良好的表現，其中包括水準、多個方向、彎曲的文本。
比之前的方法要快很多，因為DB可以提供健壯的二值化圖，進而大大簡化了後處理過程。
使用輕量級的backbone（ResNet18）也有很好的表現。
DB子產品在推理過程中可以去除，是以不占用額外的記憶體和時間的消耗。

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

6、FCENet

着重于對任意形狀文本包圍框的表示方法模組化，提出了可以精确地逼近任何封閉曲線的傅裡葉輪廓嵌入方法和針對此文本框表達方法設計的FCENet。

該算法在高度彎曲文本上具有優異的檢測性能，且具有良好的泛化能力。在沒有額外資料集參與預訓練的情況下，在CTW1500、Total-Text上的檢測效果達到了SOTA。

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

3. 端到端文字識别

由于檢測和識别是高度相關的，是以将檢測和識别統一到一個模型裡面，就使得圖像的feature可以被共享利用。
檢測和識别這兩種任務可以是互補的，更好的檢測結果可以提升識别的準确率，識别的資訊也可以被用來精修檢測的結果。

Conf.	Net	Title	ICDAR13	ICDAR15
ICCV2017	Towards End-to-end Text Spotting with Convolution Recurrent Neural Network	0.8459
CVPR2018	FOTS	FOTS: Fast Oriented Text Spotting with a Unified Network	0.8477	0.6533
ECCV2018	Mask TextSpotter	Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes	0.865	0.624
ICCV2019	CharNet	Convolutional Character Networks	0.7108
ECCV2020	Mask TextSpotterV3	Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting	0.742

1、

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

a.end-to-end方式訓練出來的模型可以學習到更豐富的圖像特征，并且這種特征可以被兩種不同任務所共享，可以有效的節省時間。

b.論文中提出了一種全新的region feature抽取方法。這種feature抽取方法可以很好的相容文本bbox原始長寬比以及避免圖像的扭曲，而且ROI pooling可以生成具有不同長度的feature maps。

c.提出了一種類似課程學習政策的方法用一種逐漸增加圖像複雜性的資料集來訓練模型。

2、FOTS

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

End-to-end架構的解決了角度文本端到端識别的問題；
RoI Rotate子產品的運用，橋接了detection和recogniton
模型小、速度快、效果好

3、Mask TextSpotter

Mask TextSpotter利用簡單且平滑的端到端學習過程，通過語義分割獲得精确的文本檢測和識别。此外，它在處理不規則形狀的文本執行個體（例如，彎曲文本）方面優于之前的方法。

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

識别部分隻能識别26個字母+10個數字

4、CharNet

整個網絡分為兩個大的分支，上面的分支用來進行字元檢測和識别（整體）；下面的分支用來檢測字元中的每一個文本（單個文字或字元）。

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

5、Mask TextSpotterV3

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

4. 資料集

資料集	資料語言大小	簡要介紹	标注格式	下載下傳位址
ICDAR_2013	語言: 英文 train:229 test:233	水準文本	x1 y1 x2 y2 text	下載下傳連結.
ICDAR_2015	語言: 英文 train:1000 test:500	傾斜文本	x1,y1,x2,y2,x3,y3,x4,y4,text	下載下傳連結.
ICDAR2017-MLT	語言: 混合 train:7200 test:1800	多語言文本	x1,y1,x2,y2,x3,y3,x4,y4,text	下載下傳連結. 提取碼: z9ey
ICDAR2017-RCTW	語言: 混合 train:8034 test:4229	主要是中文	x1,y1,x2,y2,x3,y3,x4,y4,<識别難易程度>,text	下載下傳連結
天池比賽2018	語言: 混合 train:10000 test:10000	合成圖像，産品描述，網絡廣告複雜排版，密集的小文本或多語言文本，水印等	x1,y1,x2,y2,x3,y3,x4,y4,text	檢測。識别
ICDAR2019-MLT	語言: 混合 train:10000 test:10000	水準文本每個連續的1000個圖像包含一種主要語言的文本	x1,y1,x2,y2,x3,y3,x4,y4,語言類别,text	下載下傳連結. 提取碼: xofo
ICDAR2019-LSVT	語言: 混合 train:30000 test:20000	中文街景圖像	json格式标簽	下載下傳連結
ICDAR2019-ReCTS	語言: 混合 train:20000 test:5000	餐廳招牌上的中文文本	json格式标簽	下載下傳連結
ICDAR2019-ArT	語言: 混合 train:5603 test:4563	包含水準、多方向和彎曲等多種形狀的文本	json格式标簽	下載下傳連結
Synth800k	語言: 英文 80k	每個文本執行個體均使用文本字元串、字級和字元級邊界框進行注釋	基于字元标注	下載下傳連結
360萬中文資料集	語言: 中文 360k	每個樣本固定10個字元，字元随機截取自語料庫中的句子	每張圖檔由10個字元構成	下載下傳連結. 提取碼:lu7m
中文街景資料集CTW	語言：中文 32285	包含平面文本，凸起文本，城市文本，農村文本，低亮度文本，遠處文本，部分遮擋文本	基于字元标注的中文街景圖檔	下載下傳連結
百度中文場景文字識别	語言: 混合 29萬	由街景圖檔中的文字行區域（如店鋪标牌、地标等）截取出來而形成圖像經過一些預處理：将文字區域利用仿射變化，等比映射為一張高為48像素的圖檔	下載下傳連結
MSRA-TD500	語言: 中英文 Training:300 Test:200	多方向文本檢測大部分文本都在引導牌上	.gt格式标簽	下載下傳連結
Total-Text	語言: 英文 Training:1255 Test:300	彎曲文本	下載下傳連結

OCR論文綜述（含文字識别、文本檢測、端到端和資料集合）OCR綜述概覽

OCR綜述概覽

1. 文字識别

2. 文本檢測

3. 端到端文字識别

4. 資料集

繼續閱讀

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡