人工智能這個詞可謂是耳熟能詳,近幾年人工智能熱潮再次席卷而來,引起轟動的要數google的AlphaGo,相繼打敗了圍棋界的南韓選手李世石以及世界冠軍柯潔,見證了人工智能發展的裡程碑式的變革,人工智能再度引起了衆人的關注。
(此圖來自網頁http://mini.eastday.com/mobile/171107214414785.html裡面,如有侵權,請聯系小編及時清除)
人工智能當然不止會下棋這麼簡單,其實在20年前,智能家居的開發就有不少團隊在進行,隻是切入點不對,是以一直沒有什麼起色,現在大家都以語音為切入點,使得人工智能開始步入正軌,亞馬遜的智能音箱echo就是代表産品,自然語言互動會逐漸擺脫人對着螢幕互動的束縛,其最大的價值就是回歸人生,在未來就會遷就人類,語音互動就是這樣一個在各個場景中都可以嵌入的技術。
目前我國的語音識别技術也已經從進場發展到遠場,如果要實作人工智能,OCR技術則是必不可少的基石,智能文字識别的主要依據就是OCR技術識别原理,現在也有許多智能産品加入了人臉識别的項目。
一:ocr的曆史
OCR英文全稱是Optical Character Recognition,中文叫做光學字元識别。它是利用光學技術和計算機技術把印在或寫在紙上的文字讀取出來,并轉換成一種計算機能夠接受、人又可以了解的格式。文字識别是計算機視覺研究領域的分支之一,而且這個課題已經是比較成熟了,并且在商業中已經有很多落地項目了。比如漢王OCR,百度OCR,阿裡OCR等等,很多企業都有能力都是拿OCR技術開始掙錢了。其實我們自己也能感受到,OCR技術确實也在改變着我們的生活:比如一個手機APP就能幫忙掃描名片、身份證,并識别出裡面的資訊;汽車進入停車場、收費站都不需要人工登記了,都是用車牌識别技術;我們看書時看到不懂的題,拿個手機一掃,APP就能在網上幫你找到這題的答案。太多太多的應用了,OCR的應用在當今時代确實是百花齊放啊。
OCR概念的産生是在1929年,德國的科學家Tausheck首先提出了OCR的概念,并且申請了專利。幾年後,美國科學家Handel也提出了利用技術對文字進行識别的想法。但這種夢想直到計算機的誕生才變成了現實。現在這一技術已經由計算機來實作,OCR的意思就演變成為利用光學技術對文字和字元進行掃描識别,轉化成計算機内碼。
我國在OCR技術方面的研究工作起步較晚,在70年代才開始對數字、英文字母及符号的識别進行研究,70年代末開始進行漢字識别的研究,到1986年漢字識别的研究進入一個實質性的階段,取得了較大的成果,不少研究機關相繼推出了中文OCR産品。我國OCR都是有 OMR演變過來的,我國的一些研究部門在 80年代初就開始對OCR識别進行研究,如:清華的吳估壽教授、丁曉青教授、夏瑩教授、北大的顧小鳳教授、北信的張昕中教授、中科院的劉品平博士、李明敬博士可以稱作我國OCR研究開發隊伍中的導航人,為此付出了不懈努力。二十多年的研究開發積累了大量人才,專家就有上百人。在中關村的矽谷地帶,我國的OCR專家多達20多位,他們也為我國的資訊領域留下了自己奮鬥的足迹。我國目前使用的文本型OCR軟體主要有清華文通TH-OCR、北信BI-OCR、中自ICR、沈陽自動化所SY-OCR、北京曙光公司NI-OCR(已被中自漢王并購)等,比對的掃描器則使用市面上的平闆掃描器。中文OCR即采用掃描器、數位相機等輸入裝置,把中文印刷體的文稿送入計算機并以計算機文檔表示出來的高新技術。中文印刷體識别技術(OCR)主要用于文字和表格輸入,可以用掃描器将整頁的印刷文稿或者表格輸入計算機,由計算機上的識别系統自動生成漢字檔案,替代人工鍵入漢字和表格的工作。中文OCR有普及版和專業版之分,現在市場上掃描器捆綁的OCR軟體均為普及版。目前印刷體OCR的識别技術已經達到可以實用的程度,即使對印刷品質較差的文字的識别率也達到95%以上。由于手寫體OCR技術的限制,專業型OCR系統的産品多是面向特定的行業,即适用于每天需處理大量表格資訊錄入的部門,如郵政、稅務、海關、統計等等。這種面向特定行業的專業型OCR系統資訊格式較為固定,識别的字元集相對小,經常與專用的輸入裝置結合使用,是以具有速度快、效率高等特點。在國外已經被廣泛地應用,充分發揮着作用。在我國随着計算機應用的深入,這方面的需求已經出現。專業版 OCR有批處理功能,性能更加優化,識别率也不同于普通版OCR。國家的"863計劃"對OCR技術的研究給予了很大的資助,促進了OCR的重大成果的取得。如"863"項目的啟用者漢王最新推出的專業版"新世紀OCR",将我國當今的OCR技術推進了新的巅峰。它的特點主要是:識别率大幅度提高,尤其是對中英文混排文稿,識别率為99%。可識别宋、仿宋、楷、隸、行等八種印刷字型,對數字、标點符号的識别也可點可圈;對表格識别也有了一定的突破,無論橫版、豎版、中文表格、圖文混排檔案都能識别,自動版面分析和識别功能也大大加強。從80年代開始,OCR的研究開發就一直受到國家"863"計劃的資助,我國在資訊技術領域付出的努力,已經有了初步的回報。目前我們正在實作将OCR軟體針對表格形式的特征設計了大量的優化功能,使得識别精度更高、識别速度更快,并且為适應不同環境的使用提供了多種識别方式選項,支援單機和網絡操作,極大地友善了使用,使應用範圍更加廣泛,能達到各種不同使用者的應用要求。我們相信經過衆多專家或專業人士的努力,及國家在資訊産業領域的大力資助,使OCR進入到網絡的各個領域,會有更多的新品種奉獻給我們的使用者,OCR技術将會有一個質的飛躍。
二,關于OCR的概念
光學字元識别(英語 :Optical Character Recognition)是指電子裝置(例如掃描器或數位相機)檢查紙上列印的字元,通過檢測暗、亮的模式确定其形狀,然後用字元識别方法将形狀翻譯成計算機文字的過程;即,針對印刷體字元,采用光學的方式将紙質文檔中的文字轉換成為黑白點陣的圖像檔案,并通過識别軟體将圖像中的文字轉換成文本格式,供文字處理軟體進一步編輯加工的技術。如何除錯或利用輔助資訊提高識别正确率,是OCR最重要的課題,ICR(Intelligent Character Recognition)的名詞也是以而産生。衡量一個OCR系統性能好壞的主要名額有:拒識率、誤識率、識别速度、使用者界面的友好性,産品的穩定性,易用性及可行性等。
三,印刷體文字識别
OCR技術的興起便是從印刷體識别開始的,印刷體識别的成功為了以後手寫體的發展奠定了堅實的基礎,一般處理圖檔的步驟包括以下幾個:圖像輸入,圖像前處理,預識别,圖像切分,特征提取,比對及模型訓練,識别後處理。
3.1 圖像輸入
對不同的圖像格式,有着不同的存儲格式,不同的壓縮方式,目前有OpenCV,CxImage等開源項目。
3.2 圖像預處理
輸入文本經過掃描器進入計算機後,由于紙張的厚薄、光潔度和印刷品質都會造成文字畸變,産生斷筆、粘連和污點等幹擾,是以在進行文字識别之前,要對帶有噪聲的文字圖像進行處理。由于這種處理工作是在文字識别之前,是以被稱為預處理。預處理一般包括灰階化、二值化,傾斜檢測與校正,行、字切分,平滑,規範化等等。
3.2.1 灰階化:
通過外設采集的圖像通常為彩色圖像,彩色圖像會夾雜一些幹擾資訊,灰階化處理的主要目的就是濾除這些資訊,灰階化的實質其實就是将原本由三維描述的像素點,映射為一維描述的像素點。轉換的方式和規則有很多,在這裡不詳細介紹。
3.2.2 二值化處理:
對攝像頭拍攝的圖檔,大多數是彩色圖檔,彩色圖像所含的資訊量巨大,對于圖檔的内容,我們可以簡單的分為前景和背景,為了讓計算機更快的,更好的識别文字,我們可以簡單地分為前景和背景,為了讓計算機更快的,更好的識别文字,我們需要對彩色圖進行處理,使圖檔隻剩下前景資訊和背景資訊,可以簡單的定義前景資訊為黑色,背景資訊為白色,這就是二值化圖。
3.2.3 噪聲去除
對于不同的文檔,我們對噪聲的定義可以不同,根據噪聲的特征進行去噪,就叫做噪聲去除。
3.2.4 傾斜校正
由于一般的使用者,在拍攝文檔時候,都比較随意,是以拍出來的圖檔不可避免的産生傾斜,這就需要文字識别軟體進行矯正。
印刷體文本資料大多是由平行于頁面邊緣的水準(或者垂直)的文本行(或者列)組成的,即傾斜角度為零度。然而在文本頁面掃描過程中,不論是手工掃描還是機器掃描,都不可避免地會出現圖像傾斜現象。而傾斜的文檔圖像對後期的字元分割、識别和圖像壓縮等工作将産生很大影響。為了保證後續處理的正确性,對文本圖像進行傾斜檢測和校正是十分必要的。
文本圖像的傾斜校正分為手動校正和自動校正兩種。手動校正,是指識别系統提供某種人機互動手段,實作文本圖像的傾斜校正。自動校正,是指由計算機自動分析文本圖像的版面特征,估計圖像的傾斜角度,并根據傾斜角度對文本圖像進行校正。
目前,文本圖像的傾斜檢測方法有許多種,主要可以劃分為以下五類:基于投影圖的方法,基于Houhg變換的方法,基于交叉相關性的方法,基于Fourier變換的方法和基于最近鄰聚類方法。
最簡單的基于投影圖的方法是将文本圖像沿不同方向進行投影。當投影方向和文字行方向一緻時,文字行在投影圖上的峰值最大,并且投影圖存在明顯的峰谷,此時的投影方向就是傾斜角度。
Huogh變換也是一種最常用的傾斜檢測方法,它是利用Hough變換的特性,将圖像中的前景像素映射到極坐标空間,通過統計極坐标空間各點的累加值得到文檔圖像的傾斜角度。
Fourier變換的方法是利用頁面傾角對應于使Fourier空間密度最大的方向角的特性,将文檔圖像的所有像素點進行Fourier變換。這種方法的計算量非常大,目前很少采用。
基于最近鄰聚類方法,取文本圖像的某個子區域中字元連通域的中心點作為特征點,利用基線上的點的連續性,計算出對應的文本行的方向角,進而得到整個頁面的傾斜角
3.2.5 版面分析
将文檔圖檔分段落,分行的過程就叫做版面分析,由于實際文檔的多樣性,複雜性,是以,目前還沒有一個固定的,最優化的切割模型。
3.3 字元切割
由于拍照條件的限制,經常造成字元粘連,斷筆,是以極大限制了識别系統的性能。
3.4 字元識别
這一研究很早了,比較早有模闆比對,後來以特征提取為主,由于文字的位移,筆畫的粗細,斷筆,粘連,旋轉等因素的影響,極大影響特征的提取的難度。
3.5 版面還原
人們希望識别後的文字,任然像源文檔圖檔那樣排列着,段落不變,位置不變,順序不變地輸出到Word文檔,PDF文檔等,這一過程就叫做版面還原。
将文本圖像分割為不同部分,并标定各部分屬性,如:文本、圖像、表格。目前在版面分析方面的工作核心思想都是基于連通域分析法,後衍生出的基于神經網絡的版面分析法等也都是以連通域為基礎進行的。連通域是指将圖像經過二值化後轉為的二值矩陣中任選一個像素點,若包圍其的所有像素點中存在相同像素值的像素點則視為兩點連通,以此類推,這樣的像素點構成的一個集合在圖像中所在的區域即一個連通域。根據連通域大小或像素點分布等特征可以将連通域的屬性标記出來,用作進一步處理的依據。
3.6 後處理,校對
根據特定的語言上下文的關系,對識别結果進行校正,就是後處理。
四,ocr的分類
如果要給OCR進行分類,我覺得可以分為兩類:手寫體識别和印刷體識别。這兩個可以認為是OCR領域兩個大主題了,當然印刷體識别較手寫體識别要簡單得多,我們也能從直覺上了解,印刷體大多都是規則的字型,因為這些字型都是計算機自己生成再通過列印技術印刷到紙上。在印刷體的識别上有其獨特的幹擾:在印刷過程中字型很可能變得斷裂或者墨水粘連,使得OCR識别異常困難。當然這些都可以通過一些圖像處理的技術幫他盡可能的還原,進而提高識别率。總的來說,單純的印刷體識别在業界已經能做到很不錯了,但說100%識别是肯定不可能的,但是說識别得不錯那是沒毛病。
印刷體已經識别得不錯了,那麼手寫體呢?手寫體識别一直是OCR界一直想攻克的難關,但是時至今天,感覺這個難關還沒攻破,還有很多學者和公司在研究。為什麼手寫體識别這麼難識别?因為人類手寫的字往往帶有個人特色,每個人寫字的風格基本不一樣,雖然人類可以讀懂你寫的文字,但是機器缺很難。那為什麼機器能讀懂印刷體?因為印刷體是機器造出來的啊,那機器當然能讀懂自己造的字型啦哈哈~其實上面也提到了,印刷體一般都比較規則,字型都基本就那幾十種,機器學習這幾十種字型并不是一件難事,但是手寫體,每個人都有一種字型的話,那機器該學習多少字型啊?這就是難度所在。
如果按識别的内容來分類,也就是按照識别的語言的分類的話,那麼要識别的内容将是人類的所有語言(漢語、英語、德語、法語等)。如果僅按照我們國人的需求,那識别的内容就包括:漢字、英文字母、阿拉伯數字、常用标點符号。根據要識别的内容不同,識别的難度也各不相同。簡單而言,識别數字是最簡單了,畢竟要識别的字元隻有0~9,而英文字母識别要識别的字元有26個(如果算上大小寫的話那就52個),而中文識别,要識别的字元高達數千個(二級漢字一共6763個)!因為漢字的字形各不相同,結構非常複雜(比如帶偏旁的漢字)如果要将這些字元都比較準确地識别出來,是一件相當具有挑戰性的事情。但是,并不是所有應用都需要識别如此龐大的漢字集,比如車牌識别,我們的識别目标僅僅是數十個中國各省和直轄市的簡稱,難度就大大減少了。當然,在一些文檔自動識别的應用是需要識别整個漢字集的,是以要保證識别的整體的識别還是很困難的。
五,識别方法
現在我們隻想單純地想對字元進行識别,那方法會有哪些呢?我列了一下可以采取的政策:
- 使用谷歌開源OCR引擎Tesseract
- 使用大公司的OCR開放平台(比如百度),使用他們的字元識别API
- 傳統方法做字元的特征提取,輸入分類器,得出OCR模型
- 暴力的字元模闆比對法
- 大殺器:基于深度學習下的CNN字元識别
上面提到的OCR方法都有其有點和缺點,也正如此,他們也有各自特别适合的應用場景。
首先說開源OCR引擎Tesseract。搞字元識别的童鞋應該都聽說過Tesseract這個東西,這是谷歌維護的一個OCR引擎,它已經有一段相當悠久的曆史了。Tesseract現在的版本已經支援識别很多種語言了,當然也包括漢字的識别。畢竟Tesseract是外國人搞得一個東西,是以在漢字識别的精度上還是不能擺上台面,不過還是自己去改善。但是Tesseract在阿拉伯數字和英文字母上的識别還是可以的,如果你要做的應用是要識别英文或者數字,不妨考慮一下使用Tesseract,畢竟拿來就能得到不錯的結果。當然啦,要做到你想要的識别率,後期微調或者優化肯定要多下功夫的。
接下來說一下借用OCR開放平台做文字識别。現在很多大公司都開放了OCR的API供開發者調用,當然啦,小量調用是不收費的,但是大量調用就要收費了。最近我也在百度開放平台上調用OCR的API做一些識别的工作,說實話,在漢字的識别上,我們中國公司的技術還是頂尖的,在漢字識别的準确率上已經讓人很滿意了。比如我要識别一些文本,自己寫個python腳本,調用開放平台的服務,傳回的就是識别結果了。這種模式有啥不好的地方嗎?首先是需要錢(當然每天小批量識别一下是不用錢的),第二是自己的控制程度不足,我們想要提升識别精度,我們不可以從OCR識别上做改進(畢竟别人的東西,我們改不了),能做隻是預處理和後期矯正,能做的還是比較有限的。但是,如果自己不想花大量時間做OCR模型并且手上有錢的話,這種識别方法還是OK的。
上面提到的都是用的是别人的東西,那我們想從頭自己做,咋辦?
那就自己做吧!先談一談字元模闆那比對法。暴力的字元模闆比對法看起來很蠢,但是在一些應用上可能卻很湊效。比如在對電表數字進行識别時,考慮到電表上的字型較少(可能就隻有阿拉伯數字),而且字型很統一,清晰度也很高,是以識别難度不高。針對這種簡單的識别場景,我們首先考慮的識别政策當然是最為簡單和暴力的模闆比對法。我們首先定義出數字模闆(0~9),然後用該模闆滑動比對電表上的字元,這種政策雖然簡單但是相當有效。我們不需要左思右想去模組化,訓練模型,隻需要識别前做好模闆庫就可以了。
模闆比對法隻限于一些很簡單的場景,但對于稍微複雜的場景,那就不太實用了。那此時我們可以采取OCR的一般方法,即特征設計、特征提取、分類得出結果的計算機視覺通用的技巧。在深度學習大放異彩之前,OCR的方法基本都是這種方法,其效果嘛,并不算特别好。在這裡簡單說一下這裡常見的方法。第一步是特征設計和提取,特征設計是一件很煩人的事情,做過模式識别相關項目的童鞋也深有體會,我們現在識别的目标是字元,是以我們要為字元設計它獨有的的特征,來為後面的特征分類做好準備。字元有啥特征呢?有結構特征,即字元的端點、交叉點、圈的個數、橫線豎線條數等等,都是可以利用的字元特征。比如“品”字,它的特征就是它有3個圈,6條橫線,6條豎線。除了結構特征,還有大量人工專門設計的字元特征,據說都能得到不錯的效果。最後再将這些特征送入分類器(SVM)做分類,得出識别結果。這種方式最大的缺點就是,人們需要花費大量時間做特征的設計,這是一件相當費工夫的事情。通過人工設計的特征(例如HOG)來訓練字元識别模型,此類單一的特征在字型變化,模糊或背景幹擾時泛化能力迅速下降。而且過度依賴字元切分的結果,在字元扭曲、粘連、噪聲幹擾的情況下,切分的錯誤傳播尤其突出。針對傳統OCR解決方案的不足,學界業界紛紛擁抱基于深度學習的OCR。
這些年深度學習的出現,讓OCR技術煥發第二春。現在OCR基本都用卷積神經網絡來做了,而且識别率也是驚人的好,人們也不再需要花大量時間去設計字元特征了。在OCR系統中,人工神經網絡主要充當特征提取器和分類器的功能,輸入是字元圖像,輸出是識别結果,一氣呵成。當然用深度學習做OCR并不是在每個方面都很優秀,因為神經網絡的訓練需要大量的訓練資料,那麼如果我們沒有辦法得到大量訓練資料時,這種方法很可能就不奏效了。其次,神經網絡的訓練需要花費大量的時間,并且需要用到的硬體資源一般都比較多,這幾個都是需要考慮的問題。
六,ocr的發展
在一些簡單環境下OCR的準确度已經比較高了(比如電子文檔),但是在一些複雜環境下的字元識别,在當今還沒有人敢說自己能做的很好。現在大家都很少會把目光還放在如何對電子文檔的文字識别該怎麼進一步提高準确率了,因為他們把目光放在更有挑戰性的領域。OCR傳統方法在應對複雜圖文場景的文字識别顯得力不從心,越來越多人把精力都放在研究如何把文字在複雜場景讀出來,并且讀得準确作為研究課題,用學界術語來說,就是場景文本識别(文字檢測+文字識别)。
七,ocr的用途
1) 辦公自動化 工廠企業、公司及事業機關的日常辦公用檔案及資料等需要輸入計算機存儲檢索。使用OCR,既比存儲圖像檔案大大地節省存儲量,又不需要專職錄入人員,是減輕勞動量、節約資金、提高辦公效率的最好措施。
2) 建立中文資料庫 要大量輸入各種文書、刊、報及檔案,使用OCR可以縮短建庫時間,減輕勞動強度,降低費用。
3) 打字公司、書刊出版社、報社等 使用OCR可以自動錄入已經出版的文章和列印檔案,稍加修改編輯成新文章或再版己有書刊。OCR輸出的标準漢字代碼檔案可為大多數中文處理系統、輕印刷系統、照排系統所接受,可重新列印、印刷輸出。
4) 圖書館、文獻中心 用本系統自動錄入圖書有關資訊,可建立書目資料庫自動錄入經典圖書全文,将紙上文字轉移到計算機内,便于儲存、查找、檢索,更大的好處可以提供給專家用計算機對書籍内容進行研究。
5) 機器翻譯機器翻譯的第一步是将全文輸入計算機。利用OCR可以将機器自動翻譯相比對,實作高速自動翻譯。
6) 個人使用 當您閱讀資料時,可用OCR将您感興趣的段落自動錄入。特别是作家,利用本軟體可以将一些書載曆史資料或文獻快速錄入到計算機内。
八,ocr的學習資料
8.1 部落格推薦
8.1.1中文OCR部落格
部落客中文OCR系列部落格,内容講解比較直白,比較容易了解,可以比較清楚了解漢字識别整個流程。
http://blog.csdn.net/plfl520/article/details/8441478
8.1.2 卷積神經網絡數學了解
再推薦一個系列部落格,部落客的一系列部落格,都是對神經網絡算法的從數學角度的深度境界,對于想要詳細了解算法原理的童鞋,比較适用。
http://colah.github.io/posts/2014-07-Understanding-Convolutions/
8.2 書籍推薦
8.2.1 《統計學習方法》—李航
本書可以說是機器學習領域的聖經級書籍,書中主要介紹了一些基礎機器學習算法,其中數學演算也很詳盡,十分适合機器學習入門的一本書籍。

8.2.2 《數學之美》—吳軍
“數學之美”系列文章原刊載于谷歌黑闆報,獲得上百萬次點選,得到讀者高度評價。吳軍博士把高深的數學原理講得更加通俗易懂,讓非專業讀者也能領略數學的魅力。讀者通過具體的例子學到的是思考問題的方式 —— 如何化繁為簡,如何用數學去解決工程問題,如何跳出固有思維不斷去思考創新。這種思維模式在不僅機器學習領域十分重要,在其他的領域中也會受益匪淺。
8.2.3《數字圖像處理》—岡薩雷斯
想要了解圖像處理的理論可以把岡薩雷斯的《數字圖像處理》通讀一遍,這本書主要在講基礎原理,推薦大家閱讀原版,譯翻譯不太好,容易導緻誤解。
8.3 視訊資料
https://www.coursera.org/learn/machine-learning/home/welcome
Andrew Ng的機器學習課程,配合小練習,收獲很大。
8.4 論文參考
url : http://pan.baidu.com/s/1bpH2dtX code : xjwl
8.5 OCR工具的作用
1,識别率極高。
2,***度高。
3,批量操作友善。
4,可以保持原有表格格式,省去二次編輯。
5,包括梯形校正,歪斜校正之類的許多圖檔校正方式。
九 6個優秀的開源OCR光學字元識别工具
紙張在許多地方已經日益失寵,無紙化辦公談論了40多年,辦公環境正限制紙山的生成。而過去幾年,無紙化辦公的概念發生了顯著的轉變。在計算機軟體的幫助下,包含大量重要管理資料和咨詢的文檔可以更友善的以電子形式存儲。掃描文檔的好處不純粹是存檔理由。為了通路基于紙張的資訊和将資訊整合進數字工作流,光學字元識别(OCR)技術至關重要。選擇正确的OCR工具要基于特定需求而定,例如線上OCR對某些人有用,但是存在隐私問題和檔案大小限制。OCR軟體非大衆産品,是以開源代替相對于商業級重量級産品相對較少,再加上OCR軟體需要先進的算法将掃描的圖像正确翻譯成實際的文字,而圖像不僅僅含有文字,它還包含布局,圖像和表格,可能會跨越多頁。
優秀的開源OCR軟體包括:
9.1 Tesseract
位址:https://www.oschina.net/p/tesseract-ocr
原本由惠普開發的圖像識别類庫tesseract-ocr已經更新到2.04, 就是最近Google支援的那個OCR。原先是惠普寫的,現在Open source了。
9.2 OCRopus
位址:https://www.oschina.net/p/ocropus
Ocropus的(TM)是一個先進的檔案分析和OCR系統,采用可插入的布局分析,可插入的字元識别,自然語言統計模組化和多語言支援功能。
9.3 Cuneiform
位址:https://www.oschina.net/p/cuneiform+for+linux
Cuneiform 是一個 OCR 文字識别系統的商标,最開始是由Cognitive 技術所開發的運作在 Windows 下的軟體。而這個項目是該軟體在 Linux 系統下的移植版本。
9.4 GOCR
位址:https://www.oschina.net/p/gocr
GOCR 是一個開源的OCR光學識别程式。
十 OCR開源庫(文本區域定位和文本識别)
10.1 SWT識别:
yestinsong/Text-Detection( Text Detection System with MSER , SWT and Text Verification(fft and pca) )
https://github.com/yestinsong/Text-Detection
aperrau/DetectText:Detect text with stroke width transform.
https://github.com/aperrau/DetectText
liuliu/ccv: (C-based/Cached/Core Computer Vision Library, A Modern Computer Vision Library http://libccv.org )
https://github.com/liuliu/ccv
10.2 基于智能學習:caffe和crnn
備注:CTPN :Connectionist Text Proposal Network
crnn(Convolutional Recurrent Neural Network 卷積循環神經網路)
tesseract-ocr/tesseract
https://github.com/tesseract-ocr/tesseract
tianzhi0549/CTPN : (Detecting Text in Natural Image with Connectionist Text Proposal Network http://textdet.com)
https://github.com/tianzhi0549/CTPN
bgshih/crnn:Convolutional Recurrent Neural Network (CRNN) for image-based sequence recognition.
https://github.com/bgshih/crnn
bear63/sceneReco (CTPN+CRNN)
https://github.com/bear63/sceneReco
AKSHAYUBHAT/DeepVideoAnalytics (CTPN+CRNN)
https://github.com/AKSHAYUBHAT/DeepVideoAnalytics/tree/master/notebooks/OCR
Crnn中文end-to-end識别
http://blog.csdn.net/u013293750/article/details/73188934
ankush-me/SynthText
https://github.com/ankush-me/SynthText
JarveeLee/SynthText_Chinese_version
https://github.com/JarveeLee/SynthText_Chinese_version
參考文獻
[1] 魏宏喜.印刷體蒙古文字識别中關鍵技術的研究[D].内蒙古大學碩士學位論文,2006.
[2] 劉煜星.基于MapReduce的漢字識别的研究與實作[D].華南理工大學碩士學位論文,2011.
[3] Dan Ciresan, Ueli Meier. Multi-Column Deep Neural Networks for offline handwritten Chinese character classification[C]. In: Proceedings of the International Conference on Neural Networks (IJCNN) , 2015, pp. 1-6.
[4] Chunpeng Wu,Wei Fan, Yuan He, Jun Sun.Satoshi Naoi.Handwritten Character Recognition by Alternately Trained Relaxation Convolutional Neural Network[C]. In: Proceedings of the International Conference on Frontiers in Handwriting Recognition (ICFHR), 2014, pp.291-296.