A method for text localization andrecognition in real-world images(2010)
Abstract:
(i)抛弃feed-forwad前馈方法,使用hypotheses-verification设想-验证法;
(ii)使用合成文字去训练 免去数据获取和标记的时间消耗
(iii)使用对几何变换、光照具有鲁棒性的MSERs
Results: recog- 72% ( Char74k dataset) 超最优+18%
(ii)第一个结合了detec+recog
1.introduction
(i) 场景文本特点 - 不统一背景、透视、简短的小片、字体语言不同、文本排列不一、专有名词
(ii)大多数的sequential pipelinemethod-(loc+segmentation+recog)总体的识别率受到每一步准确率的影响
(ii-i)separting method-丢失信息
(iii)本文end-to-end
Property1: 人造训练集
2:在某些scalar projection中像素是极值区域,因此可以区分出背景、文本(recog前)
3:pipeline中有很多的假定,hypotheses-verification

2.problem description
3.loc+recog
(i) MSER detection + classification(SVM+RBFkernel)
文本、非文本分类具有缩放不变性,但对旋转不鲁棒,因此训练集中需要加入不同旋转的文本
训练集包括1227字符1396非字符,交叉验证误差5.6%
用于字符分类的特征:纵横比、分段高度、紧密度、孔洞数、凸出、颜色一致性、背景颜色一致性、笔画一致性
3.3text line hypothesis
本文只针对水平文本
3.4几何归一化
三个最重要参数:透视畸变修正先于识别,lx ly通过水平消失点VH计算,
几何归一化处理原图、归一化输入、归一化结果
3.5识别
Recog feature+region splitting文本切分
印刷体文本
3.7语言模型
当识别文本属于字典得分为1,否则…
4.实验
Chars74K-54.3%、ICDAR2003