A method for text localization andrecognition in real-world images(2010)
Abstract:
(i)抛棄feed-forwad前饋方法,使用hypotheses-verification設想-驗證法;
(ii)使用合成文字去訓練 免去資料擷取和标記的時間消耗
(iii)使用對幾何變換、光照具有魯棒性的MSERs
Results: recog- 72% ( Char74k dataset) 超最優+18%
(ii)第一個結合了detec+recog
1.introduction
(i) 場景文本特點 - 不統一背景、透視、簡短的小片、字型語言不同、文本排列不一、專有名詞
(ii)大多數的sequential pipelinemethod-(loc+segmentation+recog)總體的識别率受到每一步準确率的影響
(ii-i)separting method-丢失資訊
(iii)本文end-to-end
Property1: 人造訓練集
2:在某些scalar projection中像素是極值區域,是以可以區分出背景、文本(recog前)
3:pipeline中有很多的假定,hypotheses-verification

2.problem description
3.loc+recog
(i) MSER detection + classification(SVM+RBFkernel)
文本、非文本分類具有縮放不變性,但對旋轉不魯棒,是以訓練集中需要加入不同旋轉的文本
訓練集包括1227字元1396非字元,交叉驗證誤差5.6%
用于字元分類的特征:縱橫比、分段高度、緊密度、孔洞數、凸出、顔色一緻性、背景顔色一緻性、筆畫一緻性
3.3text line hypothesis
本文隻針對水準文本
3.4幾何歸一化
三個最重要參數:透視畸變修正先于識别,lx ly通過水準消失點VH計算,
幾何歸一化處理原圖、歸一化輸入、歸一化結果
3.5識别
Recog feature+region splitting文本切分
印刷體文本
3.7語言模型
當識别文本屬于字典得分為1,否則…
4.實驗
Chars74K-54.3%、ICDAR2003