天天看點

吳恩達《機器學習》課程總結(18)應用執行個體:圖檔文字識别

18.1問題描述和流程圖

(1)圖像文字識别是從給定的一張圖檔中識别文字。

(2)流程包括:

1.文字偵測

2.字元切分(現在不需要切分了)

3.字元分類

吳恩達《機器學習》課程總結(18)應用執行個體:圖檔文字識别

18.2滑動視窗

在行人檢測中,滑動視窗是首先訓練一個固定尺寸輸入的判斷是否有行人的網絡,然後在一張圖檔中裁該尺寸的圖檔,送入到網絡中;然後不斷移動裁剪區,重複以上過程,知道裁剪到最後,這時按比例放大裁剪區,然後将裁剪到的圖檔縮放到網絡的輸入,如此循環。

首先滑動視窗同樣用于文字識别,做字元與非字元區分,然後把字元區域适當擴充,然後合并重疊區域,按照高寬比進行過濾(認為長度大于高度),如下圖所示:

吳恩達《機器學習》課程總結(18)應用執行個體:圖檔文字識别

然後進行文字的分割,通用訓練一個模型,資料集如下:

吳恩達《機器學習》課程總結(18)應用執行個體:圖檔文字識别

分割出單個字元之後,利用神經網絡、支援向量機或者邏輯回歸訓練一個分類器即可。

18.3擷取大量資料和人工資料

(1)從網上下載下傳字型,然後随機添加跟着背景創造執行個體;

(2)利用已有資料進行旋轉、扭曲、模糊處理等産生新資料;

有關擷取更多資料的方法:

(1)人工資料合成;

(2)手動收集、标記資料;

(3)衆包;

18.4上限分析:哪部分管道該接下去做

如下下面的流程中,本來正确率為72%,如果提供完全正确的文字檢測作為文字分割的輸入,發現系統正确率提升到了89%,說明要下功夫在文字檢測上了。

吳恩達《機器學習》課程總結(18)應用執行個體:圖檔文字識别

下表是每一步如果完全正确,會帶來多大的提升,如果提升越大,說明越要花功夫在這一步上。下表首先要花功夫在文字檢測上,然後是文字識别,而文字分割已經做得很好了。

吳恩達《機器學習》課程總結(18)應用執行個體:圖檔文字識别

繼續閱讀