天天看點

文字識别總結(OCR)

最近在讀Tesseract相關文章,發現一篇總結的不錯的文章,對剛入門或者準備入門的具有挺大參考價值,轉自:http://www.xtecher.com/Xfeature/view?aid=5372

連結可能挂掉了,今天重新補充一下。

目錄

一 ,文字識别簡介

1)探索階段(1979一1985)

2)研制階段(1986~1988)

3)實用階段(1989一至今)

二 ,印刷體文字識别

2.1 圖像預處理

2.2版面處理

2.3 圖像切分

2.4 特征提取與模型訓練

2.5 識别後處理

三,手寫體文字識别

四,應用案例

4.1印刷體識别應用

4.2手寫體識别應用

五 學習資料

5.1 部落格推薦

5.2 書籍推薦

5.3 視訊資料

5.4 論文參考

5.5 OCR工具

5.6 參考文獻

文字識别總結(OCR)

文字識别是計算機視覺研究領域的分支之一,歸屬于模式識别和人工智能,是計算機科學的重要組成部分。本文将以上圖為主要線索,簡要闡述在文字識别領域中的各個組成部分。

一 ,文字識别簡介

計算機文字識别,俗稱光學字元識别,英文全稱是Optical Character Recognition(簡稱OCR),它是利用光學技術和計算機技術把印在或寫在紙上的文字讀取出來,并轉換成一種計算機能夠接受、人又可以了解的格式。OCR技術是實作文字高速錄入的一項關鍵技術。

在OCR技術中,印刷體文字識别是開展最早,技術上最為成熟的一個。早在1929年德國科學家Taushek就取得了一項光學字元識别(Optical Character Recognition,簡稱OCR)的專利131。歐美國家為了将浩如煙海、與日俱增的大量報刊雜志、檔案資料和單據報表等文字材料輸入計算機進行資訊處理,從上世紀50年代就開始了西文OCR技術的研究,以便代替人工鍵盤輸入。經過40多年的不斷發展和完善,并随着計算機技術的飛速發展,西文OCR技術現已廣泛應用于各個領域,使得大量的文字資料能夠快速、友善、省時省力和及時地輸入到計算機中,實作了資訊處理的“電子化”。

與印刷體西文OCR相比,印刷體漢文OCR技術的研究是在印刷體數字識别和印刷體英文識别的基礎上發展起來的,最早可以追溯到上世紀60年代。1966年,BIM公司的Casey和Nagy發表了第一篇關于印刷體漢字識别的論文,在這篇論文中他們利用簡單的模闆比對法,識别了1000個印刷體漢字。從上世紀70年代以來,日本學者在漢文OCR方面做了許多研究工作,其中有代表性的系統有1977年東芝綜合研究所研制的可以識别2000個單體印刷漢字的識别系統;80年代初期,日本武藏野電氣研究所研制的可以識别2300個多體漢字的印刷體漢字識别系統,代表了當時漢字識别的最高水準。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷體漢字識别系統。這些系統在方法上,大都采用基于K-L數字變換的比對方案,使用了大量專用硬體,其裝置有的相當于小型機甚至大型機,價格極其昂貴,是以并沒有得到廣泛應用。

與國外相比,我國的印刷體漢字識别研究是從上世紀70年代末起步的,至今己有近三十年的發展曆史,大緻可以分成如下三個階段:

1)探索階段(1979一1985)

在對數字、英文、符号識别研究的基礎上,自上世紀70年代末,國内就有少數機關的研究人員對漢字識别方法進行了探索,發表了一些論文,研制了少量模拟識别軟體和系統。這個階段漫長,成果不多,但是卻孕育了下一個階段的豐碩果實。

2)研制階段(1986~1988)

1986年初到1988年底,這三年是漢字識别技術研究的高潮期,也是印刷體漢字識别技術研究的豐收期。總共有11個機關進行了14次印刷體漢字識别的成果鑒定,這些系統對樣張識别能達到高名額:可以識别宋體、仿宋體、黑體、楷體,識别的字數最多可達6763個,字号從3号到5号,識别率高達99.5%以上,識别速度在286微機條件下能夠達到10~14字/秒,但對真實文本識别率大大下降,這是由于以上系統對印刷體文字形狀變化(如文字模糊、筆劃粘連、斷筆、黑白不均、紙質品質差、油墨反透等等)的适應性和抗幹擾性比較差造成的。但是這三年研制的識别系統為印刷體漢字識别系統的實用化打下了基礎,是識别系統從研制到實用化必經的過程。

3)實用階段(1989一至今)

印刷體漢字識别自1986年掀起高潮以來,清華大學電子工程系、中國科學院計算所智能中心、北京資訊工程學院、沈陽自動化研究所等多家機關分别研制并開發出了實用化的印刷體漢字識别系統。尤其是由清華大學電子工程系研制的清華TH一OCR産品和由漢王集團開發的尚書OCR産品,它們始終都處于技術發展的最前沿,并占據着最大的市場佔有率,代表着印刷體漢字識别技術的發展潮流。目前,印刷體漢字識别技術的研究熱點已經從單純的文字識别轉移到了表格的自動識别與錄入,圖文混排和多語種混排的版面分析、版面了解和版面恢複,名片識别,金融票據識别和古籍識别等内容上。并且出現了許多相關的識别系統,如:紫光文通推出的名片識别系統(e一card)、身份證識别系統(e驗通)和“慧視”螢幕文字圖像識别系統等等。這些新的識别系統的出現,标志着印刷體漢字識别技術的應用領域得到了廣闊的擴充。

國家高技術研究發展“863”計劃、國家重點科技攻關計劃、國家自然科學基金和軍事基礎研究基金都對印刷體漢字識别這一研究課題予以極大的重視和大力的支援。目前,印刷體漢字識别和聯機手寫漢字識别走向實用化,其技術水準和目前世界最高水準并駕齊驅。

這篇文章将對OCR技術進行分類描述,并介紹一些在OCR領域中較常使用的算法,由于個人主要參與的項目實踐與印刷體識别較為相關,是以對于其他領域的描述若有不當之處,請大家指正,希望本文的介紹會讓大家對OCR的整個流程有一個簡要的概念。

二 ,印刷體文字識别

OCR技術的興起便是從印刷體識别開始的,印刷體識别的成功為後來手寫體的發展奠定了堅實的基礎。印刷體識别的主要流程大緻分為以下幾個部分:圖像預處理;版面處理;圖像切分;特征提取、比對及模型訓練、比對;識别後處理。

2.1 圖像預處理

輸入文本經過掃描器進入計算機後,由于紙張的厚薄、光潔度和印刷品質都會造成文字畸變,産生斷筆、粘連和污點等幹擾,是以在進行文字識别之前,要對帶有噪聲的文字圖像進行處理。由于這種處理工作是在文字識别之前,是以被稱為預處理。預處理一般包括灰階化、二值化,傾斜檢測與校正,行、字切分,平滑,規範化等等。

2.1.1灰階化

通過外設采集的圖像通常為彩色圖像,彩色圖像會夾雜一些幹擾資訊,灰階化處理的主要目的就是濾除這些資訊,灰階化的實質其實就是将原本由三維描述的像素點,映射為一維描述的像素點。轉換的方式和規則有很多,在這裡不詳細介紹。

2.1.2 二值化

經過灰階處理的彩色圖像還需經過二值化處理将文字與背景進一步分離開,所謂二值化,就是将灰階值(或者彩色值)圖像信号轉化成隻有黑(l)和白(0)的二值圖像信号。二值化效果的好壞,會直接影響灰階文本圖像的識别率。二值化方法大緻可以分為局部門檻值二值化和整體門檻值二值化。目前使用較多的日本學者大津提出的“大津法”

2.1.3傾斜校正

印刷體文本資料大多是由平行于頁面邊緣的水準(或者垂直)的文本行(或者列)組成的,即傾斜角度為零度。然而在文本頁面掃描過程中,不論是手工掃描還是機器掃描,都不可避免地會出現圖像傾斜現象。而傾斜的文檔圖像對後期的字元分割、識别和圖像壓縮等工作将産生很大影響。為了保證後續處理的正确性,對文本圖像進行傾斜檢測和校正是十分必要的。

文本圖像的傾斜校正分為手動校正和自動校正兩種。手動校正,是指識别系統提供某種人機互動手段,實作文本圖像的傾斜校正。自動校正,是指由計算機自動分析文本圖像的版面特征,估計圖像的傾斜角度,并根據傾斜角度對文本圖像進行校正。

目前,文本圖像的傾斜檢測方法有許多種,主要可以劃分為以下五類:基于投影圖的方法,基于Houhg變換的方法,基于交叉相關性的方法,基于Fourier變換的方法和基于最近鄰聚類方法。

最簡單的基于投影圖的方法是将文本圖像沿不同方向進行投影。當投影方向和文字行方向一緻時,文字行在投影圖上的峰值最大,并且投影圖存在明顯的峰谷,此時的投影方向就是傾斜角度。

Huogh變換也是一種最常用的傾斜檢測方法,它是利用Hough變換的特性,将圖像中的前景像素映射到極坐标空間,通過統計極坐标空間各點的累加值得到文檔圖像的傾斜角度。

Fourier變換的方法是利用頁面傾角對應于使Fourier空間密度最大的方向角的特性,将文檔圖像的所有像素點進行Fourier變換。這種方法的計算量非常大,目前很少采用。

基于最近鄰聚類方法,取文本圖像的某個子區域中字元連通域的中心點作為特征點,利用基線上的點的連續性,計算出對應的文本行的方向角,進而得到整個頁面的傾斜角。

2.1.4規範化

規範化操作就是将輸入的任意尺寸的文字都處理成統一尺寸的标準文字,以便與己經預先存儲在字典中的參考模闆相比對。規範化操作包括1211:位置規範化、大小規範化以及筆劃粗細規範化。在本節隻讨論位置規範化和大小規範化。

為了消除文字點陣位置上的偏差,需要把整個文字點陣圖移動到規定的位置上,這個過程被稱為位置規範化。常用的位置規範化操作有兩種,一種是基于質心的位置規範化,另一種是基于文字外邊框的位置規範化。基于文字外邊框的位置規範化需要首先計算文字的外邊框,并找出中心,然後把文字中心移動到指定的位置上來。基于質心的位置規範化方法抗幹擾能力比基于文字外邊框的位置規範化方法要強。

使用基于文字外邊框的位置規範化方法對文字進行位置規範化的操作結果,如下圖所示。

文字識别總結(OCR)

對不同大小的文字做變換,使之成為同一尺寸大小,這個過程被稱為大小規範化。很多已有的多字号印刷體識别系統都是通過大小規範化來識别不同字号的文字。常用的大小規範化操作也有兩種,一種是将文字的外邊框按比例線性放大或縮小成規定尺寸的文字,另一種是根據水準和垂直兩個方向上文字黑像素的分布情況進行大小規範化。

使用根據水準和垂直兩個方向上文字黑像素的分布情況方法對文字進行大小規範化操作的效果,如下圖所示。

文字識别總結(OCR)

2.1.5圖像平滑

文本圖像經過平滑處理之後,能夠去掉筆劃上的孤立白點和筆劃外部的孤立黑點,以及筆劃邊緣的凹凸點,使得筆劃邊緣變得平滑。一種簡單的平滑處理方法如下。采用NxN視窗(N一般為3,如圖2-1所示是一個3X3視窗),依次在二值文字點陣中進行掃描,根據視窗中黑白像素的分布情況,使處于視窗中心的被平滑像素X。,從“0”變成“1”或者從“l”變成“0”。

該方法是按以下規則對文字輪廓邊緣進行平滑的。

規則1如果滿足圖2-2中(a),(b),(c),(d)四種情況中的任何一種,則中心點應該由“0”變成“l”。

規則2如果滿足圖2-2中(e),(f),(g),(h)四種情況中的任何一種,則中心點應該由“1”變成“0”。

文字識别總結(OCR)
文字識别總結(OCR)

2.2版面處理

通常版面處理分為三個主要部分,版面分析、版面了解、版面重構。

2.2.1版面分析

将文本圖像分割為不同部分,并标定各部分屬性,如:文本、圖像、表格。目前在版面分析方面的工作核心思想都是基于連通域分析法,後衍生出的基于神經網絡的版面分析法等也都是以連通域為基礎進行的。連通域是指将圖像經過二值化後轉為的二值矩陣中任選一個像素點,若包圍其的所有像素點中存在相同像素值的像素點則視為兩點連通,以此類推,這樣的像素點構成的一個集合在圖像中所在的區域即一個連通域。根據連通域大小或像素點分布等特征可以将連通域的屬性标記出來,用作進一步處理的依據。

2.2.2版面了解

擷取文章邏輯結構,包括各區域的邏輯屬性、文章的層次關系和閱讀順序。根據版面分析時記載的連通域位置資訊,确定連通域歸屬序列。

2.2.3版面重構

根據版面分析和OCR的結果,重構出包含文字資訊和版面資訊的電子文檔。

2.3 圖像切分

圖像切分大緻可以分為兩個個主要類别,行(列)切分和字切分。經過切分處理後,才能友善對單個文字進行識别處理。如下圖所示。

文字識别總結(OCR)

2.3.1 行列切分

由于印刷體文字圖像行列間距.、字間距大緻相等,且幾乎不存在粘連現象,是以可以采用投影法對圖像進行切分,得到每列(行)在坐标軸的像素值投影曲線是一個不平滑的曲線,通過高斯平滑後的曲線在每個波谷位置間的區域即為要的一行(列)。

2.3.2 字切分

字切分對于不同的文種存在着比較明顯的差異,通常意義下,字切分是指将整行或整列文字切分成獨立的一個個文字,而實際上根據文種差異,可能還需需要将單個文字進行進一步切分。而因為文種不同,構詞法或鈎字法也有所不同,是以切分方法的難度差别也是天壤之别。例如将漢字“屋”切分開的難度和将英文“house”切分開的難度差别就很大,是以在識别模式上,也會根據文種特性,設計不同的識别方法。

2.4 特征提取與模型訓練

在深度學習廣泛應用于圖像識别領域之前,模闆比對是較為常見的一種識别方式,之後由于神經網絡的複蘇,基于回報的神經網絡給OCR領域帶來了又一春。現在随着計算機硬體算力的提升,利用大批資料訓練深度神經網絡在圖像識别方面取得了傲人的成績。

2.4.1 特征提取及比對

特征提取是從單個字元圖像上提取統計特征或結構特征的過程。所提取的特征的穩定性及有效性,決定了識别的性能。對于統計特征的提取,可利用統計模式識别中的特征提取方法,而對結構特征的提取,應根據具體文字所确定的識别基元确定相應的特征提取方法。在相當長的文字識别的研究過程中,是利用人們的經驗知識,指導文字特征的提取。例如邊緣特征、變換特征、穿透特征、網格特征、特征點特征、方向線素特征等等。

特征比對是從已有的特征庫中找到與待識别文字相似度最高的文字的過程。當待識别文字提取完特征之後,不管使用的是統計特征,還是結構特征,都需要有一個特征庫來進行比對,特征庫中應包含欲識别字元集中所有文字的特征。特征比對的方法有很多,比較常用的有:歐式空間的比對法、松弛比對法、動态程式比對法以及HMM(HiddneMarkovModel)法等等。在神經網絡出現之前以及之後很長一段時間,在漢字OCR領域,一直采用的就是這種模闆比對的方法。

2.4.2 模型訓練

人工神經網絡經過一段時間的發展在OCR中主要充當了分類器的作用,網絡的輸入為文字特征向量,輸出是類編碼,在識别類型較少且結構區分較為明顯的文字識别中,特征向量通常為字元圖像像素點的矩陣,這樣特征提取相當于是一個黑盒的操作,對于原理的解釋有很多,這裡不做詳細介紹。深度學習已經成功應用于OCR領域,深度學習的發展替代了繁重的特征工程,從大量标記預料中自動學習出圖像的特征,其中CNN(卷積神經網絡)尤為搶眼,除了省去人工特征提取的流程外,共享權值的方式也減少了權值數量,大幅減少了計算開銷,它的兩大優勢使得CNN在OCR領域表現十分卓越。

2.4.3 識别方式

随着使用者數量及需求的增加,識别效率也成為OCR工程化的一項重要名額。傳統方法,會對伺服器性能要求較高,這樣使得投入成本較高且不易擴充;在Hadoop出現之後,該問題得到了較好的改善,通過MapReduce程式設計架構,使得企業需要為之投入的硬體成本大幅減少,對OCR的發展提供了有力的推動作用。

2.5 識别後處理

識别後處理主要應用于兩個方面分别是版面恢複及識别校正。版面恢複在版面處理章節已經講過,這裡不再贅述。識别校正,主要方式是在識别結果基礎上根據語種的語言模型進行,當然在單文種識别中相對容易一些,而在多語種則較為複雜。

三,手寫體文字識别

手寫體識别較印刷體識别難度較高,而在手寫體識别中脫機手寫體識别難度又比聯機手寫體識别高。這也是脫機手寫體識别還未成功應用的主要原因。

 聯機手寫體文字識别(on-line handwritten character recognition)又被稱為實時(或者線上)手寫體識别,即:人在書寫文字的同時,機器根據所書寫文字的筆劃、筆順等特征進行識别。聯機手寫體文字識别是依靠電磁式或壓電式等手寫輸入闆來完成的,當使用者使用光筆在輸入闆上寫字的時候,光筆在闆上的運動軌迹(闆上的坐标)會被轉化為一系列的電信号,這些電信号能夠串行地輸入到計算機中,從這些電信号我們可以比較容易地抽取筆劃和筆順的資訊,進而進行文字識别。從上世紀90年代以來,聯機手寫體文字識别正逐漸走向實用。中國的科研工作者推出了多個聯機手寫體漢字識别系統,國外的一些大公司也開始進入這一市場。這一技術也迎合了PDA(Personal Digital Assistant)的發展潮流。

脫機手寫體文字識别(off-line handwritten character recognition)又被稱為離線手寫體文字識别:由書寫者預先将文字寫在紙上,然後通過掃描器轉換成文字圖像,再由計算機識别成相應文字。由于每個人書寫習慣的不同,是以脫機手寫體文字的類型是多種多樣的,而且既便同一個人在不同情況下寫出來的文字也會有變化,這些都給脫機手寫體文字識别帶來了巨大的困難。對于脫機手寫體文字識别而言,如果對文字的書寫不加以任何限制(即自由手寫體文字),則識别難度相當大。

對于脫機手寫體文字識别處理流程和技術手段大緻和印刷體識别相似,但是由于手寫體随意性較大,是以對文字圖像的行列切分、字切分帶來了較大的困難,根據文種不同,切分的方法也有所不同,例如:在手寫體蒙古文字中内蒙古大學的研究學者采用了一種基于字元外接多邊形的尋找切分點的字切分算法,取得了不錯的切分效果。

對于聯機手寫體識别的處理流程,主要是利用筆劃順序作為序列模型,加上字元結構特征、筆順方向特征、筆畫數量特征作為空間模型,的組合式模型,完成識别任務。

四,應用案例

4.1印刷體識别應用

印刷體識别引用擴充較多,且技術發展較為成熟,無論在識别準确率方面還是在識别效率方面,都達到了較高的标準。

4.1.1車牌識别

車牌識别系統是OCR工業化應用較早而且成功的典型案例,如今從停車場到小區門禁,車牌識别技術已走進生活的各個角落。車牌識别的成功,歸結為以下幾個原因;

1、識别内容是封閉集合,且集合較小

2、文字字型、大小較為規範

3、文字間距均勻,噪音較少

4.1.2 Tesseract

Tesseract的OCR引擎最先由HP實驗室于1985年開始研發,至1995年時已經成為OCR業内最準确的三款識别引擎之一。然而,HP不久便決定放棄OCR業務,Tesseract也從此塵封。

數年以後,HP意識到,與其将Tesseract束之高閣,不如貢獻給開源軟體業,讓其重煥新生--2005年,Tesseract由美國内華達州資訊技術研究所獲得,并求諸于Google對Tesseract進行改進、消除Bug、優化工作。

Tesseract目前已作為開源項目釋出在Google Project,其最新版本3.0已經支援中文OCR,并提供了一個指令行工具。

4.1.3驗證碼識别

驗證碼的主要目的是強制人機互動來抵禦機器自動化攻擊的。驗證碼作為一種輔助安全手段在Web安全中有着特殊的地位,驗證碼安全和web應用中的衆多漏洞相比似乎微不足道,但是千裡之堤毀于蟻穴,有些時候如果能繞過驗證碼,則可以把手動變為自動,對于Web安全檢測有很大的幫助。

全自動區分計算機和人類的圖靈測試(英語:Completely Automated Public Turing test to tell Computers and Humans Apart,簡稱CAPTCHA),俗稱驗證碼,是一種區分使用者是計算機和人的公共全自動程式。在CAPTCHA測試中,作為伺服器的計算機會自動生成一個問題由使用者來解答。這個問題可以由計算機生成并評判,但是必須隻有人類才能解答。由于計算機無法解答CAPTCHA的問題,是以回答出問題的使用者就可以被認為是人類。

對于文字識别技術隻适用于字元型驗證碼識别工作,除此之外還需要對不同驗證碼設計相應的去噪算法等。

4.2手寫體識别應用

4.2.1文通筆(聯機手寫)

筆順和連筆是影響聯機手寫漢字識别系統識别率的兩個主要因素。前面講過,解決筆順問題的方法有二:一是對使用者提出嚴格的要求,希望他們按“标準”的筆順、一筆一畫地寫字。這種要求,實際上很難做到。這是因為,事實上我國還沒有統一的筆順标準或規定;即使有一種标準,每個人的受教育程度和習慣不盡相同,要求做到都按标準筆順寫字,實際上幾乎是不可能的。另一種辦法是:對于容易出現筆順不同的每一個漢字,設定若幹标準模闆。例如“女”字,有的人先寫“く”筆,有的人則先寫“一”筆,這個字就可能有兩種不同的筆順。在“字典”中可設定兩個模闆,它們的筆畫相同,而筆順不一樣,但都代表“女”字。這樣做會使字典的容量大大增加。在內建電路規模還不夠大、速度也不夠高的年代,這種辦法不容易推廣應用。

連筆是一個更為困難的問題,實際上也很難解決。人們為了提高書寫速度,寫字時往往是一筆呵成。要求他們一筆一畫、按部就班地書寫,也幾乎是不可能的。這個問題比筆順問題更不易處理,這是目前市場上出售的筆式輸入裝置的識别率尚難進一步提高的主要原因。

近幾年投入市場的“文通筆”在解決上述筆順和連筆的兩個問題上做了一些努力,取得了一些成果,并在全國評測中獲得較好的評價。取得這些進展的原因,一方面是由于計算機技術的迅速發展,機器資源已經不是制約識别算法的主要沖突,設計者不必過分擔心計算機的容量和速度的問題,可以更大膽地設計一些具有較高的抗幹擾能力的算法;另一方面,在識别算法上,文通筆的研制者提出了一種富有創造性的結構法與統計法相結合的新技術,較好地解決了單純的結構識别方法難以适應手寫漢字字形及筆順變化的問題。下面扼要介紹這種算法的要點。

上面講過,結構模式識别比較充分地描述被識别對象的結構資訊。但是這種方法也有不少缺點:

①模式的描述是基于符号而不是基于數值,抗幹擾能力差。

②描述基元關系的文法規則一般需由人工編寫,難以利用機器自學習方法獲得。

③句法分析較為複雜,運算量大。

針對上述問題,文通筆在漢字字形模組化方面做了一些創新性工作,包括:

①在比較嚴格的機率基礎上建立了一種模式統計模型,可用于描述聯機手寫字形的空間資訊,并易于用統計方法進行訓練,建立手寫漢字的二維模型。

②對隐馬可夫模型(HMM)做了改進,提出控制狀态轉移路徑的概念,使模型較适用于聯機手寫漢字的描述,較好地反映手寫漢字的時間資訊,還給出了這種模型的路徑搜尋算法及參數訓練方法。

③将上述兩種模型結合起來,用于聯機手寫漢字識别,在很大程度上解決了連筆和筆順變化對識别系統性能的影響,使系統具有較高的魯棒性。

采用上述方法研制成功的“文通筆”,在近年兩次“863計劃”智能機主題專家組組織的評測會上名列前茅。系統可識别6763個簡體漢字和5401個繁體漢字,對于書寫比較工整的字,識别率在95%~99%之間;書寫比較潦草的字也可達到87%~93%,前十位累加識别率仍達98%~99%;采用主流微機的識别速度大于3字/秒,能滿足實際應用要求。

4.2.2 古籍識别(脫機手寫體識别)

目前脫機手寫體識别的主要應用方向在于古籍識别,在印刷術發明之前,古人傳承書籍的方式主要依靠抄寫,在印刷術發明之後,使用人力抄寫的書籍數量減少,但信件、奏折類的包含大量手寫體文字的載體依然不少。而使用人力來完成這些書信的電子化轉儲工作十分費力,是以,針對古籍中文字進行識别的科研需求應運而生。

但是,由于古籍在儲存中難免會遭到人為或非人為的損壞,導緻字迹不清、殘損的情況屢見不鮮,加之,手寫體自身可能存在的較大差異性,使得古籍文字識别的工作難上加難。是以,對于脫機手寫體識别的應用尚未出現未成功的案例。

五 學習資料

5.1 部落格推薦

5.1.1中文OCR部落格

部落客中文OCR系列部落格,内容講解比較直白,比較容易了解,可以比較清楚了解漢字識别整個流程。

http://blog.csdn.net/plfl520/article/details/8441478

5.1.2 卷積神經網絡數學了解

再推薦一個系列部落格,部落客的一系列部落格,都是對神經網絡算法的從數學角度的深度境界,對于想要詳細了解算法原理的童鞋,比較适用。

http://colah.github.io/posts/2014-07-Understanding-Convolutions/

5.2 書籍推薦

5.2.1 《統計學習方法》—李航

本書可以說是機器學習領域的聖經級書籍,書中主要介紹了一些基礎機器學習算法,其中數學演算也很詳盡,十分适合機器學習入門的一本書籍。

文字識别總結(OCR)

5.2.2 《數學之美》—吳軍

“數學之美”系列文章原刊載于谷歌黑闆報,獲得上百萬次點選,得到讀者高度評價。吳軍博士把高深的數學原理講得更加通俗易懂,讓非專業讀者也能領略數學的魅力。讀者通過具體的例子學到的是思考問題的方式 —— 如何化繁為簡,如何用數學去解決工程問題,如何跳出固有思維不斷去思考創新。這種思維模式在不僅機器學習領域十分重要,在其他的領域中也會受益匪淺。

文字識别總結(OCR)

5.2.3《數字圖像處理》—岡薩雷斯

想要了解圖像處理的理論可以把岡薩雷斯的《數字圖像處理》通讀一遍,這本書主要在講基礎原理,推薦大家閱讀原版,譯翻譯不太好,容易導緻誤解。

文字識别總結(OCR)

5.3 視訊資料

https://www.coursera.org/learn/machine-learning/home/welcome

Andrew Ng的機器學習課程,配合小練習,收獲很大。

5.4 論文參考

url : http://pan.baidu.com/s/1bpH2dtX      code : xjwl

5.5 OCR工具

文字識别總結(OCR)

1,識别率極高。

2,自由度高。

3,批量操作友善。

4,可以保持原有表格格式,省去二次編輯。

5,包括梯形校正,歪斜校正之類的許多圖檔校正方式。

5.6 參考文獻

[1] 魏宏喜.印刷體蒙古文字識别中關鍵技術的研究[D].内蒙古大學碩士學位論文,2006.

[2] 劉煜星.基于MapReduce的漢字識别的研究與實作[D].華南理工大學碩士學位論文,2011.

[3] Dan Ciresan, Ueli Meier. Multi-Column Deep Neural Networks for offline handwritten Chinese character classification[C]. In: Proceedings of the International Conference on Neural Networks (IJCNN) , 2015, pp. 1-6.

[4] Chunpeng Wu,Wei Fan, Yuan He, Jun Sun.Satoshi Naoi.Handwritten Character Recognition by Alternately Trained Relaxation Convolutional Neural Network[C]. In: Proceedings of the International Conference on Frontiers in Handwriting Recognition (ICFHR), 2014, pp.291-296. 

繼續閱讀