天天看點

揭秘OCR文字識别的技術原理

作者:聯想元宇宙

生活當中,文字是無處不在的,它貫穿了我們的衣食住行。當你進入停車場,自動識别的車牌号是文字;當你走在街上,靓串串、麻辣火鍋等一個個門頭也是文字。

在人類漫長的文明史中,文字從誕生就是傳遞最重要資訊的方式,人們可以通過識别文字,來判定其中所包含的解釋、警告、身份等資訊。

揭秘OCR文字識别的技術原理

但是,你能辨識這樣的文字嗎?

這是ICDAR 2019的比賽題目,ICDAR是由國際模式識别學會(IAPR)組織的專業會議之一,是文檔分析與識别領域公認的最重要的國際學術會議,ICDAR的比賽有“文字識别世界杯”之稱。在這種賽事上,其題目也是學術界和産業界的熱點問題。單靠人眼去一個個辨識,準确無誤地念出這些字都得費不少功夫,那麼你有沒有想過,如果把這種難題交給機器,機器又如何識别這些文字呢?這就要談到我們今天的主角——光學字元識别(OCR)了。

OCR的跨世紀之路

世紀前的人類,一直有個夢想,就是擁有一台能讀懂字元和數字的機器。

1929年,德國科學家陶舍克做了一個實驗,利用10塊模闆對應10個數字,通過投影對10個數字進行識别,将圖形中的一個個字元轉換為一個個字元,并保留其格式,最後将圖像文章轉換成了文字文檔,并獲得了OCR史上的第一個專利。這一項專利是通過監測暗和亮的模式來确定文字的形狀,這也是OCR一詞的由來——光學字元識别。此時,雖然有了OCR技術,但這一項技術距離應用仍還有很多年。

揭秘OCR文字識别的技術原理

陶舍克設計的文字閱讀機器原型

20世紀60年代,OCR被應用于郵政代碼識别,幫助郵局做區域分信。至此,這種技術有了應用場景,但卻是一個非常窄的應用場景。OCR首次被商用發生在1965年,當時的紐約世界博覽會,IBM展示了一款OCR産品——IBMI287,這款産品可以識别印刷體的數字、英文字母及部分符号,但必須是指定的字型。

這是國際上OCR技術的一部分發展史,在國内,OCR技術起步較晚。最早做中文OCR識别的也是IBM,60年代、70年代左右,IBM的兩位科學家,用純模闆比對的方法,實作了大概1000個左右漢字的OCR識别。

但坦白說,這些發展在技術上,并沒有實作突破。直到2000年,中國OCR技術迎來了第一次突破。趁着網際網路浪潮的興起,IBM中國研究中心和清華大學合作,用OCR技術把大量的書籍包括古籍變成可供檢索的網頁,将中文OCR識别迅速推向應用。這一項應用實在是惠及了當年無數混迹于網絡的“時代先鋒”們,他們實作了不必買實體書、在網絡上就能友善地檢視諸如《周易》、《春秋》、《詩經》等經典古籍。也是在這期間,OCR技術有了飛躍式的發展,被迅速推向應用。有意思的是,這一波OCR被廣泛應用,網際網路方興未艾是一方面,另一方面,也伴随有着計算機“眼睛”之稱的掃描器發展,2000年前後,台式掃描器普及,OCR這項技術有了當時最廣泛的應用場景。

2005年前後,随着攝像頭的普及,OCR有了另一個應用場景——車牌識别。當時主要采用傳統的文字識别方法。所用技術是先通過預處理,單字分割、特征提取、分類等各個階段完成識别流程。它有一個問題,因為都需要通過手工選取特征,再進行分類,場景的普适性比較差。另外它不是端到端整體的識别過程,逐級疊加的錯誤率最後會放大。基于傳統方法做的OCR應用主要集中在特定場景,如證件識别、車牌識别、發票識别等。

揭秘OCR文字識别的技術原理

文字識别的傳統方法

這樣就帶來一些限制,如要求必須輸入高清掃描件,背景要簡單,文本要整齊等等。比如大家可能經常會碰到,進停車場的時候,如果車頭的角度稍微有點傾斜,雖然攝像頭已經拍到車牌,但因為并不是正對車牌,停車場的杆可能就是不給你擡,需要你把姿勢擺正了,才能給你“網開一面”;再比如你做書籍識别,如果掃描出來的圖像中的字型是不規整的,識别結果也非常容易出錯。這是因為當時的技術适合一些限定的場合、限定的格式下進行文字識别,并不能夠做到普适場景。很多常見的複雜場景的識别,當時的技術識别率也比較低。

深度學習之後,OCR技術被更廣泛應用

2012年,Google提出Alexnet(深度學習卷積神經網絡),深度學習突飛猛進,使得OCR技術又有了再一次跨越提升的機會,能夠突破它的平台期。整個的基于深度學習的文字識别技術,也得到了突飛猛進的進步。

揭秘OCR文字識别的技術原理

Alexnet模型結構

基于深度學習的文本識别技術一般需要兩個階段,文本行檢測和文字識别。

對于文本行檢測模型,這裡要介紹一下到CTPN。CTPN是在ECCV 2016提出的一種文字檢測算法,它是較早被廣泛應用到文本行檢測的深度學習模型。原理是通過目标檢測模型形成文本框序列,再通過後處理完成形成文本行。基于深度學習的方法,可以檢測複雜場景下的文本,相比基于手工選取特征的方法,準确率有了明顯的提升。

揭秘OCR文字識别的技術原理

CTPN網絡結構

什麼樣的場景算是複雜場景呢?好比一塊訓示牌,它的背景非常花哨,而且有一些圖案非常容易被檢測成文本,通過深度學習的方法,就可以比較好地檢測出這種場景下的文字。

檢測出文本行以後,下一步就是文字識别了。對于文本識别模型, 比較有代表性的是CRNN,它是由華中科技大學的白翔老師2015年提出的,到現在還是被廣泛應用的文本識别模型之一。

揭秘OCR文字識别的技術原理

CRNN網絡結構

CRNN模型的有着很多優點,比如它可以直接從序列标簽學習,不必給每一個字元打标簽;比其它模型參數更少;對要識别的序列對象長度沒有限制等。基于深度學習的文本檢測模型和文字識别模型的應用,使得OCR技術在複雜場景識别準确率方面的有了明顯的提升。

同時,移動裝置的不斷更新也衍生出了更多的OCR需求。2015年前後,智能手機漸漸成了平常物,伴随而來的是各大制造商不約而同地在攝像頭方面都卷了起來,手機成像的清晰度大幅度提升,OCR的應用場景也更加豐富。2016年左右,經過差不多一年的發展,移動裝置本地算力的提升,使得攝像頭的清晰度更高、能承載的應用也更加豐富。

這樣,算法的提升,場景的豐富以及裝置能力的發展,共同促進了OCR技術更廣泛的應用,如招牌識别、海報識别、以及聯想研究院目前正在做的智慧教育領域的智慧閱卷等等,逐漸湧現出來。

一橫一豎,聯想OCR的未來

前文提到2015年前後,智能手機的普及,帶動了OCR技術的落地應用。也是在2015年,聯想研究院的HCI團隊針對智能手機的場景,提出了See+概念。比如說,在一本雜志上看到一個電話号碼,機器自動識别并且撥打;在網頁上看到一個網址,可以自動掃描并且登入;掃描到一個位址,可以自動進入地圖并且幫你開啟導航;甚至在一些傾斜場景下,當你看到某段文字,文字能夠自動被識别,或者在這個基礎上進行翻譯、搜尋。

當然,此時聯想的OCR技術還停留在概念階段。伴随着OCR算法能力的提升,聯想看到了一個“彎道超車”的機會,2017年,基于技術發展趨勢,以及算法、算力,資料三方面逐漸成熟,文字識别和人臉識别成為了AI産品落地最合适的技術點之一,聯想開始進入文字識别賽道,投入研發自己的智能文檔掃描技術,這一年,聯想已經開始在移動裝置端引入了深度學習架構去解決文檔校正的問題,在當年就做到了平均IoU(交并比)顯著高于業界平均水準。

2018年3月,聯想文檔掃描技術在手機産品成功落地,是業界首批支援此功能的手機裝置。(Google直到2018年5月,才在Google Lens加入了文檔掃描功能。)此後,聯想又陸續研發了手寫識别、文檔版面分析等技術。

離開應用場景,技術就是無本之木,無水之源。首先在教育領域,聯想做了許多OCR技術與教育場景相結合的應用。在聯想備授課軟體中,可以通過拍攝、掃描,使得試卷自動進行電子化;考完試,可以通過智能錯題本幫助老師自動統計每道題的準确率;并且,聯想OCR還應用于聯想天驕系列産品,戶識通過手指文字就可以識别别中英文以及解釋和發音,實作“哪裡不會點哪裡”;聯想新研發的手寫去除技術,可以實作當孩子出現錯題,家長不需要手工擦除手寫答案,拍照後自動生成隻保留原始題目的錯題本,用于反複練習。

除了教育場景的應用,聯想OCR還賦能了智能客服、智能财務等場景。舉一個例子,當你的電腦出現藍屏,你可以拍一張照片給聯想智能客服系統,就能幫你定位目前電腦之是以藍屏是出現了什麼問題。當然,還有前面提到的辦公場景的文字識别,以及平闆上做的文檔掃描技術。值得一提的是,2021年,帶有文檔掃描技術的聯想平闆電腦出貨量達到了1200萬台。

在各類OCR技術相關頂級學術會議舉辦的競賽中,聯想也不斷斬獲佳績,包括在前文提到的ICDAR 2019,聯想獲得了兩項冠軍,在ICPR 2020,獲得了六項冠軍。2021年,聯想參加ICDAR的文檔檢測競賽,本次競賽吸引了衆多學術界與企業界的學術組織和專業機構參賽,其中包括中國科學技術大學和西安電子科技大學等高等院校,德國人工智能中心(DFKI)和NAVER(社交軟體LINE的母公司)等國際知名公司,以及網易、58集團、浦東發展銀行和建設銀行等國内專業領域的知名機構。經過激烈的角逐,最終聯想研究院智慧教育團隊以0.990971(相似系數)的高精确結果,擊敗所有競争對手,奪得文檔檢測競賽冠軍。

揭秘OCR文字識别的技術原理

ICDAR 2021,聯想獲得文檔檢測競賽冠軍

這些都隻是現在的成績,如果要描繪聯想OCR未來的技術藍圖,可以用“一橫一豎”來總結。技術演進的豎軸是内功,聯想OCR會繼續深耕識别技術,識别内容從文本識别,公式識别,到表格結構識别,以及文檔結構識别,實作文檔整體識别了解技術;橫軸是場景擴充,從教育場景出發,在更多的場景中實作技術落地。

揭秘OCR文字識别的技術原理

一橫一豎,聯想OCR的未來

綜上所述,聯想OCR強調的從來不止是資料或者算法,而是資料、算法和場景的深度融合,聯想是一個将技術落地于應用的推動者。

繼續閱讀