讀光OCR-文字識别技術解讀與應用案例分析

摘要：大資料上雲特惠活動系列直播，阿裡巴巴進階算法專家永攀對讀光OCR-文字識别技術和行業應用進行講述。OCR的本質是識别圖檔中的文字，即在複雜的圖檔背景下中對所需目标文字進行識别提取。主要從OCR商業應用場景、OCR算法和讀光産品進行了介紹。展示讀光OCR在在文字識别中強大的應用。

數十款阿裡雲産品限時折扣中，

趕快點選這裡

，領券開始雲上實踐吧

直播視訊請點選下載下傳PPT請點選更多印刷文字識别OCR相關資訊請點選

OCR商業應用場景

OCR的本質是識别圖檔中的文字。根據需要處理的資料類型可以分為四種資料場景，數字原生類、文檔類、拍照表單類和自然場景類。

數字原生類

讀光OCR-文字識别技術解讀與應用案例分析讀光OCR-文字識别技術解讀與應用案例分析

淘寶商品圖是最具代表的數字原生類字圖。圖檔中的文字是機器生成，後期添加到圖檔中。該類字圖具有最複雜多樣、最有價值和圖檔量最大等特征。在淘寶的商品圖裡面包含了各種各樣的數字原生類圖檔，其中包含各種字型、背景、排列群組合等。阿裡巴巴最近就淘寶商品圖舉行了一場比賽——MTWI挑戰賽，這是目前最大的OCR競賽。最有價值主要展現在淘寶圖上除了有商品的圖檔以外，還有很多的文字資訊，它是商品資訊傳遞的一個載體；這個商品圖彙聚了商家美工、制作等很多人的工作。圖檔數量巨大，淘寶商品的背後大概有千億圖檔，而且這些圖檔非常的有活力，每日不停地更新。讀光OCR在淘寶的商品圖上做了大量的工作，目前覆寫了所有電商圖檔的OCR識别。

文當類

文檔類OCR需求非常的廣，涉及各種公務場景。文檔類圖檔相對于其他類文檔相對簡單，沒有複雜的背景、複雜的字型，但是需要做到100%的識别率。正常人在放松情況下的輸入準确率為98%，在此基礎上探索AI識别的極限；讀光的

易用性是完善的功能，貼近業務的産品需求實作；文檔類商業的成熟更加易于商業的應用。讀光也在阿裡雲上輸出成熟OCR雲産品的文檔。

拍照表單類

拍照表單類OCR價值非常大，比較複雜，也非常具有挑戰性。根據場景和資料得知，拍照表單類的資料具有隐私性，拍照表單應用都是和我們個人資訊息息相關的，比如個人身份證、結婚證、房産證等等，需要典型的應用場景沉澱技術能力；拍照類表單的應用範圍非常的廣，是以需要制定一套通用性的解決方案。讀光提出了一種專家知識+模闆=文本了解的結構模式，這樣一套方案能夠解決文字識别和結構化的功能，實作了産品的通用性。它的商業價值和行業場景深度接入，AI能力改善行業資料流程。阿裡雲提供了定制的拍照表格識别和結構化雲服務。

自然場景類

自然場景類是OCR學術研究的重點方向，沒有具體的資料類型定義，比如街拍資料；目前遇到的本質的技術難點是定位和識别；市場的商業價值非常的大，主要應用于車牌識别、攝像監控和自動駕駛等。目前讀光OCR具有相對領先的技術能力。

OCR算法

讀光有兩種核心的算法能力——通用文字和通用結構化。通用文字識别是識别圖檔中文字所在的位置，并識别出文字的内容。在文字識别的基礎上，結合使用者的實際需要進行結構化就是通用結構化。

算法如上圖所示，該算法是在CV的基礎上進行擴充的，首先是基于文字定位和文字識别的，根據圖檔進行圖像分析、圖像提取和表格提取。需要根據應用進行結構化，根據實體的檢測，同時根據語義和圖形圖像的空間關系實作結構的關系，最後實作文本的了解，文本分析和KV結構化輸出。根據工程設計的能力實作相應的産品，需要考慮深度學習引擎的環境，通過私有雲系統進行輸出。通過文本了解和工程設計，最終實作了産品的建構。産品的輸出包括通用OCR、文檔OCR、表單OCR、OCR小程式、端上OCR。

文字定位

文字定位的目标是定位文字在圖像中的位置并表征成行。背景特征的幹擾問題，特征問題是不可避免的問題，随着深度學習發展，現在已經能夠較好的解決特征問題點。

scale問題就是物體定位的共性問題，在複雜的圖檔中，文字的高度也是不同，需要解決更好的識别文字；這個問題經過如圖上程序不斷地改進，最終通過統一樣本學習，多尺度特種輸出和多尺度Attention融合已經得到了解決。

成行的問題是文字定位特有的問題，文字可能橫着、斜着甚至是弧形的排列。剛開始使用行mask解決，但是存在粘連問題；後來定義了行，但是發現定義不清，很難進行标注；最後用起始和方向進行行定義，如果知道行的起始、結尾和方向就可以很容易的定義行，解決了行粘連問題。

文字識别

文字識别就是在文字定位的基礎上，識别文字内容同時，輸出單字位置和識别用于文本的了解。文字識别包含分類和序列兩部分，分類就是精細特征的提取問題；序列就是從人的認知進行分析。

文字識别存在的兩大難題就是相似字和生僻字的識别。相似字識别是學術難題。現在發現一共有2278個形近字，CRN對這2278個字進行單獨的識别測試，識别率隻達到83%，最終發現識别率低的原因是softmax不能有效的表征差異導緻的偏差。常用漢字大約有3700個，覆寫了99%書面資料，但是姓名、地名大概有21303個，包含大量的生僻字，而且姓名和地名在我們的實際應用中又有着非常重要的價值。CRN進行測試發現識别率隻達到21%。樣本量的過少，不能進行充分的訓練，識别率很難進行提高。

生僻字的解決方法如上圖所示，首先使用行識别，再進行了Attention單字識别方案解決了生僻字語料偏少的問題，Attention可以解決單字切字問題。通過上述方法，我們對2萬多生僻字測試集進行了測試，精确度從21%提高到了99%，基本上解決了生僻字問題。

相似字的解決方案如上圖所示，之前無法解決相似字的原因是softmax不能有效的表征差異導緻的偏差。現在提出了CentleLoss強化特征之間的差異，解決了形似字分類困難的問題。同時結合CTC和CentleLoss這兩個技術，對30萬形近字進行了測試，精确度從原來的83%提高到了97%。相似字得到了識别。

通用結構化

通用結構化中結構化的目的是把二維文字圖像轉化成一維文字或多元結構化輸出KV序列。一維文本就是按照閱讀順序進行分析，多元結構化是通過關系分析。例如卡證類，樣式是相對固定的，但是種類非常的繁多。表單類樣式更加的多樣，不計其數。因為種類的繁多，我們必須通用化的結構才能解決繁重的工作量。

通用結構化的實作包括比對、更新、搜尋和過濾四部分。比對是通過實體和全局的位置實作KV的關系對；更新是通過多階的局部關系來實作更新；搜尋是模糊位置關系的處理，首先需要對模糊的位置進行計算分數，然後進行全局最優的方式進行選擇。過濾是當不同資訊混合在一起時，使用語義模型和空間規則進行處理分離。

系統效率

提高系統效率就是要提升GPU的使用率，實作CPU和GPU計算的高效切換，解決顯存的瓶頸。使得算法的複雜度不斷加大，RT降低。業務的功能不斷的增強，QPS不斷地提升。目前業界高效的網絡結構層出不窮，高效的引擎迅速發展。我們在提高系統效率能夠從三個方面進行優化，優化網絡結構、優化推理引擎、實作全GPU化。最終實作“小快準”模型架構，該模型精度上大大的提升，效率上可以滿足端上運作。

讀光産品

讀光OCR是一項技術，從技術到産品需要規模化，需要從通用、效率、功能三個方面進行實作。

文檔OCR

文檔OCR雲産品是最簡單的産品之一。如上圖所示，文檔OCR主要包括文字圖像擷取、文字識别和識别内容了解三部分。會用到前面講到的一些關鍵技術進行實作。

如上圖所示是一個案例的實作，首先擷取圖像，并進行相應處理，最後進行四種輸出包括行輸出、單字輸出、表格輸出和段落輸出。

表單OCR

表單OCR産品比文檔OCR更加的複雜，它同樣需要文字圖像擷取、文字識别和識别内容了解。在圖像擷取這一塊，要求圖像的品質更加高。文字識别這一塊和文檔OCR相似，但是難度會更大。識别内容了解需要KV結構化和空間拓撲。

表單OCR案例，上圖是一個房産證，首先進行表格提取，如圖1所标的綠色框，然後進行文字提取，如紫色框所示，再進行語義和空間關系提取，如藍色線條所示，最後進行KV的輸出。

總結

讀光産品主要包括全文識别産品和結構化産品。全文識别産品用于多場景的普通性文字識别算法體系，具有高效性、通用性和高實時性。結構化産品連結行業知識和算法，具有高魯棒性、易配置和擴充性強。讀光OCR在阿裡落地，主要應用在内容品質管理、内容知識挖掘和營運效率提高三個方面，實作智能化電商平台治理，商品資訊化實作商品資訊大全，智能營運代替人工營運。讀光OCR已進行集團全覆寫，已處理2000億張圖，覆寫阿裡雲的淘寶、1688、支付寶、釘釘等公司。讀光OCR雲産品在雲上也推出了通用文字識别和通用結構化。主要用于資訊治理、内容知識挖掘和表單結構化。

大家如果有任何需求與咨詢可以點選連結送出：

https://market.tianchi.aliyun.com/outsource/offer/publish.htm?type=PROJECT

讀光OCR-文字識别技術解讀與應用案例分析讀光OCR-文字識别技術解讀與應用案例分析

讀光OCR-文字識别技術解讀與應用案例分析

OCR商業應用場景

數字原生類

文當類

拍照表單類

自然場景類

OCR算法

文字定位

文字識别

通用結構化

系統效率

讀光産品

文檔OCR

表單OCR

總結

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希