吳恩達《機器學習》課程總結（18）應用執行個體：圖檔文字識别

2018-07-03 23:50:00

18.1問題描述和流程圖

（1）圖像文字識别是從給定的一張圖檔中識别文字。

（2）流程包括：

1.文字偵測

2.字元切分（現在不需要切分了）

3.字元分類

在行人檢測中，滑動視窗是首先訓練一個固定尺寸輸入的判斷是否有行人的網絡，然後在一張圖檔中裁該尺寸的圖檔，送入到網絡中；然後不斷移動裁剪區，重複以上過程，知道裁剪到最後，這時按比例放大裁剪區，然後将裁剪到的圖檔縮放到網絡的輸入，如此循環。

首先滑動視窗同樣用于文字識别，做字元與非字元區分，然後把字元區域适當擴充，然後合并重疊區域，按照高寬比進行過濾（認為長度大于高度），如下圖所示：

然後進行文字的分割，通用訓練一個模型，資料集如下：

分割出單個字元之後，利用神經網絡、支援向量機或者邏輯回歸訓練一個分類器即可。

（1）從網上下載下傳字型，然後随機添加跟着背景創造執行個體；

（2）利用已有資料進行旋轉、扭曲、模糊處理等産生新資料；

有關擷取更多資料的方法：

（1）人工資料合成；

（2）手動收集、标記資料；

（3）衆包；

如下下面的流程中，本來正确率為72%，如果提供完全正确的文字檢測作為文字分割的輸入，發現系統正确率提升到了89%，說明要下功夫在文字檢測上了。

下表是每一步如果完全正确，會帶來多大的提升，如果提升越大，說明越要花功夫在這一步上。下表首先要花功夫在文字檢測上，然後是文字識别，而文字分割已經做得很好了。