18.1問題描述和流程圖
(1)圖像文字識别是從給定的一張圖檔中識别文字。
(2)流程包括:
1.文字偵測
2.字元切分(現在不需要切分了)
3.字元分類

18.2滑動視窗
在行人檢測中,滑動視窗是首先訓練一個固定尺寸輸入的判斷是否有行人的網絡,然後在一張圖檔中裁該尺寸的圖檔,送入到網絡中;然後不斷移動裁剪區,重複以上過程,知道裁剪到最後,這時按比例放大裁剪區,然後将裁剪到的圖檔縮放到網絡的輸入,如此循環。
首先滑動視窗同樣用于文字識别,做字元與非字元區分,然後把字元區域适當擴充,然後合并重疊區域,按照高寬比進行過濾(認為長度大于高度),如下圖所示:
然後進行文字的分割,通用訓練一個模型,資料集如下:
分割出單個字元之後,利用神經網絡、支援向量機或者邏輯回歸訓練一個分類器即可。
18.3擷取大量資料和人工資料
(1)從網上下載下傳字型,然後随機添加跟着背景創造執行個體;
(2)利用已有資料進行旋轉、扭曲、模糊處理等産生新資料;
有關擷取更多資料的方法:
(1)人工資料合成;
(2)手動收集、标記資料;
(3)衆包;
18.4上限分析:哪部分管道該接下去做
如下下面的流程中,本來正确率為72%,如果提供完全正确的文字檢測作為文字分割的輸入,發現系統正确率提升到了89%,說明要下功夫在文字檢測上了。
下表是每一步如果完全正确,會帶來多大的提升,如果提升越大,說明越要花功夫在這一步上。下表首先要花功夫在文字檢測上,然後是文字識别,而文字分割已經做得很好了。