作為計算機視覺領域的一個分支,OCR對于人機互動相當具有重要性。
在人機互動方面,大多人想到的都是語音互動,畢竟這是人類之間運用率最高的交流方式,且語音識别、自然語言了解等技術目前也發展的相當不錯。

什麼是OCR?
OCR是指光學裝置(掃描器、數位相機等)檢查紙上列印的字元,通過檢測暗、亮的模式确定其形狀,然後用字元識别方法将形狀翻譯成計算機文字的過程,其本質就是利用光學裝置去捕獲圖像并識别文字,将人眼的能力延伸到機器上。此概念是在1929年由德國科學家Tausheck最先提出來的,後來美國科學家Handel也提出了利用技術對文字進行識别的想法。
在20世紀50年代,IBM就開始利用OCR技術實作各類文檔的數字化,到了80年代,平闆掃描器的誕生更是讓OCR進入了商用階段,但不管是哪個階段,那時的OCR裝置對于文字背景的要求非常之高,也需要很好的成像品質。
OCR的工作原理
一般來講,OCR的工作原理包括四個部分:
影像輸入:通過光學裝置将圖檔轉入計算機後,系統會對圖檔進行一些處理,包括字元格式的分離、二值化處理、圖像降噪、傾斜校正、文字特征抽取等等,以提升圖檔的精确度;
對比識别:根據字元的不同特征,将之與資料庫進行對比,并利用對比後的識别文字與其可能的相似候選字群衆,根據前後的識别文字找出最合乎邏輯的詞,再作出更正,以加強比對的正确性;
人工校正:目前為止還沒有一款軟體的文字識别時百分之百的,是以還需要使用者親自校正,確定輸出的準确性;
影像輸出:結果輸出到txt、doc、exl等格式。
現實中,OCR的發展其實已經相當完善了,不過,随着人們需求的變更,此種OCR已經不能滿足人們的要求。而在目前,自然環境OCR是人們最為關注的點。
自然環境OCR進展
相比于傳統的OCR,自然環境OCR最難的部分在于文本檢測(将文字從圖檔中提取出來),因為它具有極大的多樣性和明顯的不确定性。如文字中包含多種語言,每種語言含有多種字母,每個字母又可以有不同的大小、字型、顔色、亮度、對比度、排列和對齊方式等;因拍攝圖像的随意性,文字區域還可能會産生變形、模糊斷裂等現象。另外,背景也是一大幹擾因素,如文字區域附近有非常複雜的紋理;非文字區域有着跟文字區域非常相似的紋理,比如窗戶、樹葉、栅欄、磚牆等。
文本檢測首先要從圖像中切割出可能存在的文字,即候選連通區域,目前被采取最多的方法是MSER(最大平穩極值區域)。當然,也有團隊在此基礎上開發出了自己的一套算法,比如微軟研究院在傳統檢測方法ER(極值區域)和MSER基礎之上采用了對比極值區域CER(Contrasting Extremal Region),CER是跟周圍的背景有一定對比度的極值區域,在低對比度的圖像上比MSER效果更好,而且獲得的候選連通區域數量遠小于ER,提高了算法的效率,并且,為了提高所獲得連通區域的品質,微軟又增加一個算法環節去增強CER。最後,微軟采取了一套基于淺層神經網絡的文字/非文字分類算法,進一步提高了對于連通區域字元的辨認率。
在此基礎之上,微軟研究院的成果也得到了世界的驗證。2014年8月,在瑞典首都斯德哥爾摩舉辦的國際模式識别大會(ICPR)上,微軟亞洲研究院團隊公布的研究成果在自然場景文字檢測的标準資料集(ICDAR-2013測試集)上取得了92.1%的檢測精度和92.3%的召回率。據了解,此前業界最好技術的檢測精度是88.5%,而召回率隻有66.5%。
OCR的應用前景
不管是傳統OCR,還是自然環境OCR,其參與者還是不少的。在國内,涉足OCR的企業主要有漢王、文通、百度等,國外的像ABBYY、IRIS、Google、微軟等等。此外,市面上也有不少OCR産品,傳統的OCR産品有尚書、漢王等,自然環境OCR的有百度翻譯、Google翻譯,實用性相當的不錯。
論起OCR的應用前景的話,僅看其隸屬于計算機視覺領域的一個分支,再聯系到目前人工智能的發展,其前景可想而知。再往細講,除了翻譯、智能購物意外,OCR未來最大的發展潛力在于人機互動。
衆所周知,人機互動一直是研究者追求的東西,但是目前也僅僅做到了語音互動和肢體互動。文字代表了人類的所有智慧與思想,如果
機器人能夠進行文字識别,那它将能夠進一步擷取知識、學習人類,進而與人類進行更為自然的互動,或是協助人類工作,提高效率。
原文釋出時間:2016-10-19 18:47
本文作者:韓璐
本文來自雲栖社群合作夥伴鎂客網,了解相關資訊可以關注鎂客網。