天天看點

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

作者:合合資訊

3.2.3 常用的文本識别模型

CRNN

2017年華中科技大學在發表的論文《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition》提出了一個識别文本的方法,這種方法就是CRNN。該模型主要用于解決基于圖像的序列識别問題,特别是場景文本識别問題。

CRNN算法原理:

CRNN的網絡架構如圖1所示,由卷積層、循環層和轉錄層三個組成部分組成。在CRNN的底部,卷積層自動從每個輸入圖像中提取一個特征序列。在卷積網絡的基礎上,建立一個遞歸網絡,由卷積層輸出,對特征序列的每一幀進行預測。采用CRNN頂部的轉錄層,将循環層的每幀預測轉化為标簽序列。雖然CRNN是由不同類型的網絡架構組成的。CNN和RNN),它可以用一個損失函數進行聯合訓練。文本識别是對序列的預測方法,是以采用了對序列預測的RNN網絡。通過CNN将圖檔的特征提取出來後采用RNN對序列進行預測,最後通過一個CTC的轉錄層得到最終結果。

是以CRNN算法主要采用的是CNN+RNN+CTC三層網絡結構,從下到上,依次為:

(1)卷積層,使用CNN,從輸入圖像中提取特征序列;

(2)循環層,使用RNN,預測從卷積層擷取的特征序列的标簽(真實值)分布;

(3)轉錄層,使用CTC,把從循環層擷取的标簽分布通過去重整合等操作轉換成最終的識别結果。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

CNN(即卷積層)

在CRNN模型中,卷積層的分量是通過從标準CNN模型中提取卷積層和最大池化層(去掉全連接配接層)。該元件用于從輸入圖像中提取序列特征表示。在被輸入網絡之前,所有的圖像都需要縮放到相同的高度。然後從卷積層的分量生成的特征映射中提取出一個特征向量序列,作為遞歸層的輸入。具體來說,特征序列的每個特征向量在特征映射上從左到右依次生成。這意味着第i個特征向量是所有映射的第i個列的連接配接。在CRNN的設定中,每一列的寬度都被固定為單個像素。這意味着第i個特征向量是所有映射的第i個列的連接配接。在CRNN的設定中,每一列的寬度都被固定為相同像素。

由于卷積層、最大池化層和元素激活函數層作用于局部區域,是以它們是平移不變的。是以,特征映射的每一列對應原始圖像的矩形區域(稱為接受域),這些矩形區域與特征映射上對應列的排列順序相同。如圖2所示,特征序列中的每個向量都與一個感受域相關聯,可以考慮作為該區域的圖像描述符。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

2.RNN(即循環層)

一個深度雙向遞歸神經網絡建立在卷積層的頂部,作為遞歸層。循環層預測特征序列x = x1,……,xt中每一幀xt的标簽分布yt。循環層的優點有三方面。首先,RNN具有很強的捕獲序列中的上下文資訊的能力。使用上下文線索進行基于圖像的序列識别比獨立處理每個符号更穩定和更有幫助。以場景文本識别為例,寬字元可能需要連續幾幀進行充分描述(參見圖2)。此外,一些模糊的字元在觀察上下文時更容易區分,例如,對比角色高度更容易識别“il”,而不是單獨識别“il”。其次,RNN可以将誤差差分反向傳播到其輸入端,即卷積層,允許我們在一個統一的網絡中聯合訓練循環層和卷積層。

LSTM是定向的,它隻使用過去的上下文。在基于圖像的序列中,兩種方法的上下文是有用的和互補的。然後,CRNN将兩個LSTM,一個向前,一個向後,組合成一個雙向LSTM。此外,可以堆疊多個雙向LSTM,産生深度雙向LSTM,如圖3.b所示。深度結構比淺層結構具有更高層次的抽象性,并在語音識别[17]任務中取得了顯著的證明性能。在循環層中,誤差差分與圖3.b所示的箭頭方向相反,即時間反向傳播(BPTT)。在循環層的底部,将傳播的差分序列連接配接成映射,将特征映射轉換為特征序列的操作,并回報到卷積層。在實踐中,我們建立了一個自定義的網絡層,稱為“映射到序列”,作為卷積層和循環層之間的橋梁。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

3.CTC(即轉錄層或翻譯層)

轉錄是将RNN對每幀的預測轉換為标簽序列的過程。在數學上,轉錄是指在每幀預測的條件下找到具有最高機率的标簽序列。在實踐中,存在兩種轉錄模式,即無詞彙的轉錄和基于詞彙的轉錄。詞典是預測所限制的一組标簽序列,例如一個拼寫檢查字典。在無詞彙模式下,沒有任何詞彙即可進行預測。在基于詞彙的模式下,通過選擇機率最高的标簽序列來進行預測。

實驗結果:

CRNN選擇Synth作為模型訓練的資料集,選擇ICDAR 2003(IC03), ICDAR 2013 (IC13), IIIT 5k-word (IIIT5k), 和Street View Text (SVT)作為測試資料。其中IC03測試資料集包含251個帶有标記文本邊界框的場景圖像。IC13測試資料集繼承了IC03的大部分資料。它包含1015個經過裁剪的單詞圖像。IIIT5k包含從網際網路上收集的3000張經過裁剪的單詞測試圖像。SVT測試資料集由從Google street view收集的249張街景圖像組成。

表2顯示了通過提議的CRNN模型和最新技術(包括基于深度模型的方法)獲得的上述四個公共資料集的所有識别精度【(《Deep features for text spotting》)、(《Reading text in the wild with convolutional neural networks.》)、(《Deep structured output learning for unconstrained text recognition.》)】。在詞彙受限的情況下,CRNN的方法始終優于大多數最先進的方法,并且平均優于[22]中提出的最佳文本閱讀器。

具體而言,CRNN在IIIT5k上獲得了優異的性能,SVT與《Reading text in the wild with convolutional neural networks.》相比,在IC03上隻有“完整”詞典的性能較低。請注意,《Reading text in the wild with convolutional neural networks.》中的模型是在特定詞典上訓練的,即每個單詞都與一個類标簽相關聯。與《Reading text in the wild with convolutional neural networks.》不同,CRNN不局限于識别已知詞典中的單詞,并且能夠處理随機字元串(如電話号碼)、句子或其他腳本,如中文單詞。

是以,CRNN的結果在所有測試資料集上都具有競争力。在無限制詞典的情況下,CRNN的方法在SVT上取得了最好的性能,但仍然落後于IC03和IC13上的一些方法。請注意,表2“無”列中的空白表示這種方法無法應用于沒有詞典的識别,或者在無限制的情況下沒有報告識别精度。CRNN的方法僅使用帶有單詞級标簽的合成文本作為訓練資料,這與PhotoOCR非常不同,後者使用790萬個帶有字元級注釋的真實單詞圖像進行訓練。文獻《Reading text in the wild with convolutional neural networks.》報告的最佳性能是在無限制詞典的情況下,得益于其大詞典,然而,它并不是前面提到的對詞典嚴格無限制的模型。從這個意義上講,CRNN在無限制詞典案例中的結果仍然很有希望。

得到的實驗結果如下:

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

結論:

提出了一種新的神經網絡結構,稱為卷積遞歸 神經網絡(CRNN),它綜合了卷積神經網絡(CNN)和遞歸神經網絡(RNN)的優點。CRNN能夠擷取不同尺寸的輸入圖像,并生成不同長度的預測。例如,在每個階段中,每個詳細元素都會直接運作(例如,在每個階段中,每個詳細元素都會運作注釋)。此外,由于CRNN放棄了傳統神經網絡中使用的完全連接配接層,是以可以得到更緊湊、更高效的模型。所有這些特性使得CRNN成為基于圖像的序列識别的一種優秀方法。

在場景文本識别基準上的實驗表明,與傳統方法以及其他基于CNN和RNN的算法相比,CRNN取得了優越或極具競争力的性能。這證明了該算法的優越性。此外,在光學音樂識别(OMR)的基準測試中,CRNN顯著優于其他競争對手,這驗證了CRNN的通用性。

是以,CRNN實際上可以應用于其他領域的漢字識别。進一步加快CRNN的速度,使其在實際應用中更加實用,是未來值得探索的另一個方向。

TextSnake

2018年的論文《TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes 》提出了一種靈活的任意形狀場景文本檢測方法TextSnake。

其主要貢獻有三個方面:(1)提出了一種靈活的任意形狀場景文本的通用表示方法;(2) 在此基礎上,提出了一種有效的場景文本檢測方法;(3) 提出的文本檢測算法在多個基準上實作了最先進的性能,包括不同形式(水準、定向和彎曲)的文本執行個體

現有文本檢測方法有一個共同的假設:

本執行個體的形狀大體上是線性的;是以采用相對簡單的表征方法(軸對齊矩形、旋轉矩形四邊形);

處理不規則形狀的文本執行個體時,依然會暴露問題;

對于帶有透視變形(perspective distortion)的曲形文本(curved text)傳統方法在精确估計的幾何屬性方面力不從心;

文本執行個體不同表征方法的對比,圖a是軸對齊矩形,圖b是旋轉矩形,圖c是四邊形;圖d是TextSnake。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

TextSnake算法原理:

TextSnake圖示

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

如圖1所示,場景文本的正常表示(如軸對齊矩形、旋轉矩形和四邊形)不能精确描述不規則形狀的文本執行個體的幾何屬性,因為它們通常假設文本執行個體大緻為線性形式,這對于曲線文本不成立。為了解決這個問題,提出了一個靈活的和通用的方法:TextSnake。如圖2所示,TextSnake将一個文本執行個體表示為一個重疊的圓盤序列,每個圓盤都位于中心線上,并與一個半徑和一個方向相關聯。直覺地說,TextSnake能夠改變其形狀,以适應文本執行個體的變化,如旋轉、縮放和彎曲。

從數學上講,由幾個字元組成的文本執行個體t可以視為一個有序清單S (t)。S (t) = {D0、D1、···、Di、···、Dn},其中Di代表第i個圓盤,n為圓盤的數量。每個圓盤D都與一組幾何屬性相關聯,即D =(c、r、θ),其中c、r和θ分别為圓盤D的中心、半徑和方向。半徑r定義為其局部寬度t的一半,而方向θ是中心線圍繞中心c的切向方向。在這個意義上,通過計算S (t)中圓盤的并集,可以很容易地重建文本區域t。

請注意,圓盤與t對應的字元不一緻。但是,S (t)中的幾何屬性可以用于修正不規則形狀的文本執行個體,并将其轉換為矩形的直形圖像區域,這對文本識别器更友好

方法Pipeline:

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

為了檢測具有任意形狀的文本,TextSnake使用了一個FCN模型來預測文本執行個體的幾何屬性。該方法的管道流程如圖3所示。基于FCN的網絡預測文本中心線(TCL)和文本區域(TR)的得分圖,以及幾何屬性,包括r、cosθ和sinθ。TCL map被TR map進一步掩蓋,因為TCL自然是TR的一部分。為了執行執行個體分割,鑒于TCL彼此不重疊,使用不相交集。采用跨越式算法提取中軸點清單,最後對文本執行個體進行重構。

網絡架構:

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

整個網絡如圖4所示。受FPN和U-net的啟發,TextSnake采用了一種逐漸合并主網絡不同層次特征的方案。主幹網絡可以是被提出的用于圖像分類的卷積網絡,如VGG-16/19和ResNet。這些網絡可以分為5個卷積階段和一些額外的全連接配接(FC)層。TextSnake删除FC層,并在每個階段後将特征映射提供給特征合并網絡。TextSnake選擇VGG-16作為主幹網絡,以便與其他方法進行直接公平的比較。

推理:

饋送之後,網絡輸出TCL,TR以及幾何圖,對于TCL和TR,門檻值分别設為Ttcl和Ttr,然後,通過TR和TCL的交點,給出了TCL的最終預測。使用不相交集,可以有效地将TCL像素分離為不同的文本執行個體。

最後,設計了一種跨步算法,提取出表示文本執行個體的形狀和過程的有序點清單,并對文本執行個體區域進行重構。采用兩種簡單的啟發式方法來過濾出false positive文本執行個體:1)TCL像素的數量應至少為其平均半徑的0.2倍;2)在重建的文本區域中,至少有一半的像素應該被歸類為TR。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

跨步算法的執行過程如圖5所示。它具有3個主要動作,即Act (a)、Act (b)和Act (c),如圖6所示。首先,随機選擇一個像素作為起點,并将其集中起來。然後,搜尋過程分叉到兩個相反的方向,大步前進和集中化,直到它到達終點。這個過程将在兩個相反的方向上生成兩個有序的點清單,它們可以組合起來産生最終的中心軸清單,它遵循文本的過程,并精确地描述形狀。這3個動作的細節如下所示

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

實驗結果:

本文中用于實驗的資料集如下:

SynthText是一個大型sacle資料集,包含約800K個合成文本圖像。這些圖像是通過将自然圖像與随機字型、大小、顔色和方向呈現的文本混合而成的,是以這些圖像非常逼真。我們使用這個資料集對模型進行預訓練。

TotalText是一個新釋出的文本檢測基準。除了水準和面向多個方向的文本執行個體之外,該資料集還特别具有曲線文本,這在其他基準資料集中很少出現,但實際上在實際環境中非常常見。該資料集分為訓練集和測試集,分别包含1255張和300張圖像。

CTW1500是另一個主要由曲線文本組成的資料集。它由1000個訓練圖像和500個測試圖像組成。文本執行個體使用具有14個頂點的多邊形進行注釋。

ICDAR 2015被提議作為Challenge 4 of the 2015 Robust Reading Competition中偶然場景文本檢測的挑戰4。該資料集中的場景文本圖像由谷歌眼鏡拍攝,不考慮位置、圖像品質和視點。該資料集具有小的、模糊的、多方向的文本執行個體。有1000張圖檔用于教育訓練,500張圖檔用于測試。此資料集中的文本執行個體标記為單詞級四邊形。

MSRA-TD500是一個具有多語言、任意定向和長文本行。它包括300個訓練圖像和200個帶有文本的測試圖像行級注釋。在之前的工作[3,10]之後,實驗還将來自HUST-TR400[39]的圖像作為訓練資料,在對該資料集進行調整時,因為其訓練集非常小。

在ICDAR 2015和MSRA-TD500上的實驗中,實驗根據方法的輸出文本區域确定了最小邊界矩形。

得到了如下圖示的實驗結果:

為了進行比較,Textsnake還對Total Text和CTW1500上的EAST和SegLink模型進行了評估。表1和表2顯示了這兩個資料集上不同方法的定量結果。

如表1所示,TextSnake所提出的方法在總文本的準确率、召回率和F-measure上分别達到82.7%、74.5%和78.4%,顯著優于以前的方法。請注意,TextSnake方法的F- measure是原始Total Text論文[12]中提供的Baseline的兩倍以上。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

在CTW1500上,該方法的準确率、召回率和F-measure分别達到67.9%、85.3%和75.6%。與CTW1500資料集一起提出的CTD+TLOC相比,TextSnake算法的F-measure高出2.2%(75.6%對73.4%)。該方法在全文本和CTW1500上的優異性能驗證了該方法能夠處理自然圖像中的曲線文本。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

ICDAR 2015的微調将在大約30k次疊代時停止。在測試中,所有圖像的大小都調整為1280×768。Ttr、Ttcl設定為(0.4、0.9)。考慮到ICDAR 2015中的圖像包含許多未标記的小文本,将過濾掉短邊小于10像素或面積小于300的預測矩形。

ICDAR 2015上不同方法的定量結果如表3所示。僅通過單尺度測試,TextSnake的方法優于大多數競争對手(包括多尺度評估的方法)。這表明所提出的表示TextSnake是通用的,可以很容易地應用于複雜場景中的面向多個方向的文本。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

MSRA-TD500上的微調将在大約10k次疊代時停止。Ttr、Ttcl的門檻值為(0.4、0.6)。在測試中,所有圖像的大小都調整為1280×768。結果如表4所示,TextSnake方法的F- Measure(78.3%)高于其他方法。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

分析與讨論:

TextSnake的方法與其他方法的差別在于,它能夠預測文本執行個體的形狀和過程的精确描述(見圖8)。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

TextSnake将這種能力歸因于TCL機制。文本中心線可以看作是一種支撐文本執行個體的骨架,以及提供更多細節的地理屬性。文本,作為一種書面語言的形式,可以看作是一個映射到二維表面上的信号流。當然,它應該遵循一條需要延伸的路線。

是以,TextSnake建議預測TCL,它比整個文本執行個體要窄得多。它有兩個優點: (1)一個細長的TCL可以更好地描述過程和形狀;(2)直覺地看,TCL彼此不重疊,是以執行個體分割可以以一種非常簡單和直接的方式完成,進而簡化了TextSnake的pipeline。

此外,如圖9所示,TextSnake可以利用局部幾何圖形來繪制文本執行個體的結構,并将預測的彎曲文本執行個體轉換為規範形式,這可能在很大程度上促進了識别階段

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

為了進一步驗證TextSnake的方法的泛化能力,在沒有彎曲文本的資料集上訓練和微調TextSnake的模型,并在兩個具有彎曲文本的基準測試上對其進行評估。具體來說,在ICDAR 2015上調整了TextSnake的模型,并在目标資料集上對它們進行了評估。我們以EAST 、SegLink 和PixelLink 的模型作為baseline,因為這兩種方法也在ICDAR 2015上進行了訓練。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

如表5中所示,TextSnake的方法在彎曲文本上仍然表現良好,并且明顯優于三個強大的競争對手SegLink,EAST和PixelLink,而沒有對彎曲文本進行微調。TextSnake将這種優秀的泛化能力歸因于所提出的靈活表示。表示不是将文本作為一個整體,而是将文本視為局部元素的集合,并将它們內建在一起以做出決策。局部屬性在形成一個整體時被保留。此外,它們是互相獨立的。是以,TextSnake的方法的最終預測可以保留文本的形狀和過程的大部分資訊。這是所提出的文本檢測算法能夠搜尋具有不同形狀的文本執行個體的主要原因。

結論:

TextSnake提出了一種新穎、靈活的表示方法,用于描述具有任意形狀的場景文本的屬性,包括水準、多向和曲線文本執行個體。TextSnake提出的文本檢測方法在兩個新釋出的曲線文本資料集(Total text和SCUT-CTW1500)以及兩個在該領域廣泛使用的資料集(ICDAR 2015和MSRA-TD500)上獲得了最先進或可比的性能,證明了方法的有效性。

EAST

2017年的論文《EAST: An Efficient and Accurate Scene Text Detector》提出了一個高效和準确的場景文本檢測pipeline文本檢測模型EAST。

典型的文本檢測模型一般是會分多個階段(multi-stage)進行,在訓練時需要把文本檢測切割成多個階段(stage)來進行學習,這種把完整文本行先分割檢測再合并的方式,既影響了文本檢測的精度又非常耗時,對于文本檢測任務上中間過程處理得越多可能效果會越差。

那麼現在我們來學習又快、又準的檢測模型。

EAST的貢獻:

1.提出了一個由兩階段組成的場景文本檢測方法:全卷積網絡階段和NMS階段。

2.該pipeline可靈活生成word level或line level上文本框的預測,預測的幾何形狀可為旋轉框或水準框。

3.算法在準确性和速度上優于此前最先進的方法。

EAST算法原理:

EAST模型簡介

該算法的關鍵組成部分是一個神經網絡模型,它被訓練來直接從完整的圖像中預測文本執行個體及其幾何形狀的存在。該模型是一個完全卷積的神經網絡,适用于文本檢測,它可以輸出對單詞或文本線的密集的每像素預測。該模型是一個完全卷積的神經網絡,适用于文本檢測,它可以輸出對單詞或文本行的密集的每像素預測。這就消除了諸如候選提案、文本區域的形成和文字的劃分等中間步驟。後處理步驟隻包括對預測的幾何形狀的門檻值化和NMS。該探測器被稱為EAST,因為它是一個高效和精确的場景文本檢測pipeline。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

圖2(e)顯示了EAST的管道的進階概述。該算法遵循DenseBox 的一般設計,将圖像輸入FCN,生成多個像素級文本評分圖和幾何圖形通道。其中一個預測的通道是一個像素值在[0,1]範圍内的評分圖。其餘的通道表示包含在每個像素視圖中的單詞的幾何圖形。這個分數代表了在同一位置上預測的幾何形狀的置信度。EAST實驗了文本區域的兩種幾何形狀,旋轉框(RBOX)和四邊形(QUAD),并為每個幾何圖形設計了不同的損失函數。然後将門檻值應用于每個預測區域,其中分數超過預先定義的門檻值的幾何圖形被認為是有效的,并儲存為以後的非最大抑制。NMS之後的結果被認為是管道的最終輸出。

EAST模型網絡結構

EAST模型的網絡結構,如下圖:

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

在設計用于文本檢測的神經網絡時,必須考慮到幾個因素。由于單詞區域的大小,如圖5所示,變化很大,确定大單詞的存在需要神經網絡後期的特征,而預測包含一個小單詞區域的準确幾何形狀在早期階段需要低水準的資訊。是以,網絡必須使用來自不同級别的特性來滿足這些需求。HyperNet在特征圖上滿足這些條件,但在大型特征圖上合并大量通道将顯著增加後期階段的計算消耗。為此,我們采用u型的思想,逐漸合并特征圖,同時保持上采樣分支較小。我們一起得到了一個網絡,它既可以利用不同級别的特性,又可以保持較小的計算成本。我們的模型的示意圖如圖3所示。該模型可分解為特征提取主幹、特征合并分支和輸出層三部分。

主幹可以是一個在ImageNet 資料集上預先訓練好的卷積網絡,具有交錯的卷積層和池化層。從主幹中提取出四級特征圖,分别表示為fi,其大小分别為輸入圖像的1/32、1/16、1/8和1/4。圖3中描述為PVANet 。在實驗中,我們還采用了衆所周知的VGG16 模型,其中提取了pooling-2到pooling-5之後的特征映射。

在特征合并分支中,我們逐漸合并它們:

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

其中gi是合并基,hi是合并的特征映射,操作符[·;·]表示沿通道軸的連接配接。在每個合并階段中,來自最後一個階段的特征映射首先被輸入到一個非池化層,以使其大小加倍,然後與目前的特征映射相連接配接。接下來,一個conv1×1瓶頸減少了通道的數量并減少了計算,然後是一個conv3×3,它融合資訊,最終産生這個合并階段的輸出。在最後一個合并階段之後,一個conv3×3層生成合并分支的最終特征圖,并将其提供給輸出層。

每個卷積的輸出通道數如圖3所示。我們保持分支中卷積的通道數很小,這隻增加了主幹上的一小部分計算消耗,使網絡的計算效率很高。最終的輸出層包含幾個conv1×1操作,以将32個通道的特征映射投影到1個通道的分數映射Fs和一個多通道幾何映射Fg中。幾何輸出可以是RBOX或QUAD中的一個,在表1中總結。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

對于RBOX,幾何形狀由4個通道的軸對齊的邊界框(AABB)R和1個通道的旋轉角度θ表示。R的公式與(《Unifying landmark localization with end to end object detection》)相同,其中4個通道分别表示從像素位置到矩形的上、右、下、左邊界的4個距離。

對于QUAD Q,使用8個數字來表示從四邊形的四個角頂點{pi|i∈{1,2,3,4}}到像素位置的坐标位移。由于每個距離偏移量包含兩個數字(∆xi,∆yi),是以幾何圖形輸出包含8個通道。

标簽生成(Label generation)

Score Map Generation for Quadrangle:

隻考慮幾何是四邊形的情況。得分圖上的四邊形的正面積大緻被設計為原始地圖的縮小版本,如圖4 (a).所示對于一個四邊形Q = {pi|i∈{1,2,3,4}},其中pi = {xi,yi}是按順時針順序在四邊形上的頂點。為了縮小Q,首先計算每個頂點p的參考長度ri為

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

式中,D(pi,pj)是pi和pj之間的l2距離。我們首先縮小一個四邊形的兩條較長的邊,然後縮小那兩個較短的邊。對于每一對兩個相反的邊,我們通過比較它們的長度的平均值來确定“較長的”對。對于每條邊< pi,p(i mod 4)+1i >,我們通過沿邊移動其兩個端點向内分别移動0.3ri和0.3r(i mod 4)+1來收縮它。

Geometry Map Generation:

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

幾何圖是RBOX或QUAD之一。RBOX的生成過程如圖4(c-e)所示。對于那些文本區域以QUAD風格進行注釋的資料集(例如,ICDAR 2015),我們首先生成一個旋轉的矩形,它覆寫了具有最小面積的區域。然後對于每個得分為正的像素,我們計算它到文本框的4個邊界的距離,并将它們放到RBOX地面真相的4個通道中。對于QUAD地面真相,在8通道幾何地圖中每個得分為正的像素的值是它從四邊形的4個頂點的坐标偏移。

實驗結果:

定性結果:

圖5描述了該算法的幾個檢測示例。它能夠處理各種具有挑戰性的場景,如不均勻的照明,低分辨率,不同的方向和透視失真。此外,由于NMS過程中的投票機制,所提出的方法在具有不同形式的文本執行個體的視訊上顯示出較高的穩定性2。該方法的中間結果如圖6所示。可以看出,訓練後的模型産生了高度精确的幾何圖和得分圖,其中很容易檢測出不同方向的文本執行個體。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

定量結果:

如表3和表4所示,EAST的方法在IC-DAR 2015和COCO文本上大大優于以前的最先進方法。在ICDAR 2015挑戰4中,當圖像以原始比例饋送時,所提出的方法的F -score達到0.7820。當使用同一網絡在多個量表3上進行測試時,EAST的方法的F-score達到0.8072,就絕對值而言,這比最佳方法高出了近0.16(0.8072 vs.0.6477)。比較使用VGG16網絡的結果,當使用四路輸出時,該方法的性能也比之前的最佳工作好0.0924,當使用RBOX輸出時,該方法的性能也比之前的最佳工作好0.116。

同時,這些網絡的效率相當高。在COCO text中,所提出的算法的所有三種設定都比之前的top-performer(《Scene text detection via holistic, multi-channel prediction. 》)具有更高的精度。具體而言,F -score比(《Scene text detection via holistic, multi-channel prediction. 》)提高了0.0614,召回得分提高了0.053,這證明了該算法的優勢,因為COCO text是迄今為止最大、最具挑戰性的基準。

請注意,實驗還将(《Coco-text: Dataset and benchmark for text detection and recognition in natural images. 》)中的結果作為參考,但這些結果實際上不是有效的Baseline,因為方法(A、B和C)用于資料注釋。與以前的方法相比,該算法的改進證明了一個簡單的文本檢測pipeline,它直接針對最終目标并消除備援過程,可以擊敗複雜的pipeline,甚至是那些與大型神經網絡模型內建的pipeline。如表5所示,在MSRA-TD500上,EAST方法的所有三種設定都取得了優異的結果。最佳工作的F-score(Ours+PVANET2x)略高于《Scene text detection via holistic, multi-channel prediction. 》。與之前釋出的最先進系統Zhang等人(《Multi-oriented text detection with fully convolutional networks》)的方法相比,最佳執行者(Ours+PVANET2x)的F-score提高了0.0208,精确度提高了0.0428。

請注意,在MSRA-TD500上,配備VGG16的算法的性能比配備PVANET和PVANET2x的算法差得多(0.7023比0.7445和0.7608),主要原因是VGG16的有效感受野小于PVANET和PVANET2x的有效感受野,而MSRA-TD500的評估協定需要文本檢測算法的輸出行級别,而不是單詞級别的預測。此外,實驗還根據ICDAR 2013基準評估了Ours+PVANET2x。該方法在查全率、查準率和F得分方面分别達到0.8267、0.9264和0.8737,與之前的最先進方法相比,前者的查全率、查準率和F得分分别為0.8298、0.9298和0.8769。

「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法
「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法
「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法
「文本檢測與識别白皮書-3.2」第三節:場景文本識别方法

EAST模型的優勢在于簡潔的檢測過程,高效、準确,并能實作多角度的文本行檢測。但也存在着不足之處,例如(1)在檢測長文本時的效果比較差,這主要是由于網絡的感受野不夠大;(2)在檢測曲線文本時,效果不是很理想

參考文獻:

Liu C Y, Chen X X, Luo C J, Jin L W, Xue Y and Liu Y L. 2021. Deep learning methods for scene text detection and recognition. Journal of Image and Graphics,26(06):1330-1367(劉崇宇,陳曉雪,羅燦傑,金連文,薛洋,劉禹良. 2021. 自然場景文本檢測與識别的深度學習方法. 中國圖象圖形學報,26(06):1330-1367)[DOI:10. 11834 / jig. 210044]

Shi B G, Bai X and Yao C. 2017a. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(11): 2298-2304 [DOI: 10. 1109 / TPA-MI. 2016. 2646371]

Zhou X Y, Yao C, Wen H, Wang Y Z, Zhou S C, He W R and Liang J J. 2017. EAST: an efficient and accurate scene text detector/ / Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5551-5560 [DOI: 10. 1109 / CVPR. 2017. 283]

Long S B, Ruan J Q, Zhang W J, He X, Wu W H and Yao C. 2018. TextSnake: a flexible representation for detecting text of arbitrary shapes/ / Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 19-35 [DOI: 10. 1007 / 978-3-030-01216-8_2]

繼續閱讀