天天看點

用于表檢測和結構識别的深度學習:綜述

摘要

表格無處不在,從科學期刊、論文、網站和報紙,到我們在超市購買的物品。是以,檢測它們對于自動了解文檔内容至關重要。由于深度學習網絡的快速發展,表格檢測的性能顯著提高。本次總結的目的是深入了解表格檢測領域的主要發展,深入了解不同的方法,并提供不同方法的系統分類。此外,我們還分析了該領域的經典應用和新應用。最後,對現有模型的資料集和源代碼進行了組織,為讀者提供了關于這一大量文獻的指南。最後,我們回顧了利用各種對象檢測和表結構識别方法來建立有效和高效系統的體系結構,以及一系列發展趨勢,以跟上最先進的算法和未來的研究。我們還建立了一個公共GitHub存儲庫,我們将在其中更新最新的出版物、開放資料和源代碼。代碼庫位址

1.引言

教科書、清單、公式、圖表、表格和其他元素在文檔中很常見。特别是,大多數論文都包含幾種表格。表格作為論文的重要組成部分,可以用更少的文字傳達更多資訊,讓讀者快速探索、比較和了解内容。表檢測和結構識别是圖像分析中的關鍵任務,因為它們允許以數字格式從表中檢索重要資訊。由于文檔的類型和文檔布局的多樣性,檢測和提取圖像或文檔表非常困難。研究人員以前曾使用啟發式技術來識别表或将頁面分成多個部分進行表提取。很少有研究關注表檢測之後文檔中的表結構識别。

文檔的布局和内容分析用于檢測表。表格有多種布局和格式。是以,建立用于表檢測和表結構識别的通用方法非常困難。表格檢測被認為是科學界的一個難題。在這一領域進行了大量研究,盡管大多數研究都有局限性。現有的商業和開源文檔分析算法,如Teseract,無法從文檔圖像中完全檢測表區域。[1].

機器學習和深度學習已被證明在計算機視覺研究中非常有效。在圖像分類、物體檢測、物體位置估計、學習等計算機視覺任務中,深度卷積神經網絡(前饋人工神經系統的類型)的表現優于其他學習模型。卷積神經網絡(CNN)在對象識别中的有效性基于其學習大量中級視覺屬性的能力,而不是在圖像分類的特定方法中經常使用的手工制作的低級表示。對象由其主要特征定義,包括形狀、大小、顔色、紋理和其他特征。為了識别這樣的物品,圖檔必須清楚地顯示物體的存在,而且還必須顯示其位置[2]。

是以,對象檢測可以被描述為定位照片中真實世界目标的方法。檢測與分類密切相關,因為它包括确定圖像中某個項目的存在和位置。圖檔中可以識别的項目很多,包括汽車、建築物、桌子、人臉等。深度學習方法,如深度神經網絡、基于區域的卷積神經網絡和深度卷積神經網絡,可以提高對象識别精度和效率。

近年來,已經使用了各種顯著和創造性的政策來提高深度學習模型檢測精度,并解決在深度學習對象識别模型的訓練和測試過程中遇到的複雜挑戰。修改深度神經網絡的激活功能[3]、遷移學習[4]、5]、癌症診斷、檢測[6]、7、8]和分類[9]、醫學問題解答[10、11],以及軟體工程應用,如優化軟體項目的時間和進度[12、13],物聯網中的入侵檢測[14,15]和各種語言的手寫識别[16,17,18,19]。,并且在所提出的深度學習模型的激活函數和優化系統的組合選擇中的創造性方式是這些獨特的政策之一。在促進表檢測算法快速發展的各種變量和舉措中,深度卷積神經網絡和GPU計算能力的發展值得稱贊。深度學習模型現在廣泛應用于計算機視覺的許多方面,包括通用表格檢測[20,21,22,23,24]。另一方面,表結構受到的關注要少得多,表結構通常以表的行和列為特征[25,26,27]。

圖1顯示了深度學習技術和用于了解表格的傳統方法的基本流程比較。傳統的表識别技術要麼不能很好地處理各種資料集,要麼需要PDF檔案中的額外中繼資料。在大多數早期方法中也使用了廣泛的前處理和後處理,以提高傳統表格識别系統的效率。然而,深度學習算法使用神經網絡檢索特征,主要是卷積神經網絡[21],而不是手動建立的特征。然後,對象檢測或分割網絡嘗試區分文檔圖像中進一步分解和識别的表格部分。

本調查深入研究了基于深度學習的表檢測和分類架構。雖然目前的評估是全面的[28,29],但大多數評估沒有涉及該領域的最新進展。

本文的主要貢獻如下:

1。我們簡要介紹了表資料集的曆史以及它們之間的差別。

2.本文研究了重要的表檢測方法,以及這些方法随時間的演變。

3.對表結構識别進行了深入分析。

4.我們提供了表分類方法,并對這些方法進行了比較。沒有一項研究對我們可以确定的這些問題進行了概括。

5.在表檢測的一些資料集上的實驗結果

用于表檢測和結構識别的深度學習:綜述
圖1:傳統和深度學習方法的表分析管道比較。雖然卷積網絡用于深度學習技術,但經典方法主要通過圖像處理技術進行特征提取。與傳統方法相比,用于解釋表格的深度學習方法更具普遍性且獨立于資料。

1.1. 與以往綜述的比較

多年來,表格分析的問題已被廣泛承認。圖2顯示了過去48年中出版物的上升趨勢,該分析值來自Scopus。已經發表了顯著的表檢測和表分類調查。這些調查中有關于桌子檢測主題的傑出研究[28,29]。最近很少有調查專門針對表檢測和分類這一主題。B、 科亞斯農[30]發表了另一篇關于表格識别和表格的評論。這篇綜述簡要介紹了當時最新的技術,根據我們的了解,S.Khusro[31]于次年釋出了關于PDF文檔中表格識别和提取的最新綜述。深度學習使計算模型能夠學習極其複雜、微妙和抽象的表示,進而在視覺識别、對象檢測、語音識别、自然語言處理和醫學圖像分析等一系列問題上取得重大進展。相反,盡管已經提出了用于表識别的各種基于深度學習的算法,但我們不知道最近的任何徹底調查。為了在表檢測方面取得進一步進展,需要對先前的工作進行詳細的回顧和解釋,特别是對于新進入該主題的研究人員。

用于表檢測和結構識别的深度學習:綜述
圖2:顯示了表格分析領域的擴充趨勢。這些資訊是通過檢視2015年至2022年的表檢測和表識别年度報告收集的,該分析值來自Scopus。

1.2 範圍

基于深度學習的表檢測的研究數量驚人。它們是如此之多,以至于對現有技術的任何完整檢查都超出了任何可接受長度的論文的範圍。是以,必須建立評選标準,我們将注意力集中在最佳期刊和會議文章上。

本文的主要目标是基于流行的資料集、評估度量、上下文模組化和檢測建議方法,全面綜述基于深度學習的表檢測和分類技術,以及一些分類法、進階視角群組織。我們的目标是進行分類,使讀者更容易了解各種政策的異同。建議的分類法為研究人員提供了一個架構,以了解現有的研究并突出未來開放的研究問題。

2.主要挑戰

2.1 目标檢測挑戰

開發滿足高品質/準确度和高效率這兩個競争标準的通用算法是目标檢測的理想選擇。高品質檢測必須準确地定位和識别圖像或視訊幀中的對象,允許區分現實世界中的廣泛對象類别,并定位和識别來自同一類别的對象執行個體,盡管類内外觀存在差異,以實作高魯棒性。高效率需要實時完成整個檢測過程,同時保持合理的記憶體和存儲要求。

2.2 表格檢測挑戰

盡管經過訓練的分割模型可以準确定位表,但傳統的機器學習技術在表的結構識别方面存在缺陷。一個主要問題是在這麼小的空間裡有很多東西。是以,網絡錯過了可能有助于檢測和識别表格的關鍵視覺線索[20]。當實體規則可用時,計算水準線和垂直線的交點,以識别表格結構。霍夫變換是計算機視覺中的一種重要方法,有助于檢測文檔掃描中的線條[32]。利用線的長度、旋轉和平均暗度來過濾假陽性6,并确定該線實際上是否為表線[33]。過濾霍夫線後,計算剩餘水準線和垂直線的交點。表格單元格是基于交叉建立的。

3.深度學習概述

從圖像分類和視訊處理到語音識别和自然語言了解,深度學習已經改變了廣泛的機器學習活動。鑒于驚人的變化率[34],目前有大量關于深度學習[35、36、37、38、39、40、41、42、43、44、45]、醫學圖像分析應用[38]、自然語言處理[42]和語音識别系統[44]的調查研究。卷積神經網絡(CNN)是最常見的深度學習模型,可以使用實際信号的基本特性:平移不變性、局部連接配接群組成層次。典型的CNN包括分層結構和用于學習不同抽象級别的資料表示的多個層[36]。我們從卷積開始

用于表檢測和結構識别的深度學習:綜述

在來自前一層 l − 1 l-1 l−1 的特征圖和使用2D卷積核(或濾波器或權重) w w w l 卷積的輸入特征圖 x x xl−1 之間。這種卷積被視為一系列受到非線性過程 σ σ σ 影響的層,是以

用于表檢測和結構識别的深度學習:綜述

具有偏置項 b b blj 和 N l−1輸入特征映射xl−1i與比對核wli,j。對于每個元素,元素非線性函數 σ ( . ) σ(.) σ(.)通常是每個元素的校正線性單元(ReLU),

用于表檢測和結構識别的深度學習:綜述

最後,合并是對特征圖進行下采樣和上采樣的過程。深度卷積神經網絡(DCNN)是具有大量層的神經網絡,通常稱為“深度”網絡。CNN最基本的層由一系列特征圖組成,每個特征圖都作為神經元運作。一組權重wi,j将卷積層中的每個神經元連接配接到前一層的特征圖(本質上是一組2D濾波器)。卷積和池化層構成了早期的CNN層,而随後的層通常是完全連接配接的。輸入圖像從前一層到後一層被反複卷積,感受野或支援區域随着每一層而增長。通常,第一個CNN層提取低級特征(例如邊緣),而随後的層提取更加複雜的通用特征。[35, 46, 47, 36].

DCNN有一個分層結構,允許他們學習多個抽象級别的資料表示,學習高度複雜的功能的能力,以及使用最少的領域專業知識直接和自動從資料中學習特征表示的能力。具有極高計算能力的大尺寸标記資料集和GPU的可用性使DCNN如此成功。

盡管取得了巨大成就,但仍有公認的缺陷。迫切需要标記的訓練資料和昂貴的計算資源,選擇合适的學習參數和網絡設計仍然需要大量的專業知識和經驗。經過訓練的網絡很難了解,對退化缺乏抵抗力,許多DCNN已被證明容易受到攻擊[37],所有這些都限制了其在現實應用中的适用性。

4.資料集和評估名額

4.1 資料集

本節将介紹可用的資料集,這些資料集最常用于表檢測、表結構識别和分類任務。

4.1.1 ICDAR 2013
4.1.2 ICDAR 2017 POD
4.1.3 ICDAR2019
4.1.4 TabStructDB
4.1.5. TABLE2LATEX-450K
4.1.6. RVL-CDIP (SUBSET)
4.1.7. IIIT-AR-13K
4.1.8. CamCap
4.1.9. UNLV Table
4.1.10. UW-3 Table
4.1.11. Marmot
4.1.12. TableBank
4.1.13. DeepFigures
4.1.14. PubTables-1M
4.1.15. SciTSR
4.1.16 FinTabNet
4.1.17. PubTabNet
4.1.18. TNCR
4.1.19 SynthTabNet
表1:該表說明了表檢測中一些著名資料集之間的定量比較。
用于表檢測和結構識别的深度學習:綜述

4.2 度量

表檢測器使用多個标準來測量檢測器的性能,即每秒幀數(FPS)、精度和召回率。然而,平均精度(mAP)是最常用的評估名額。精度是從聯合上的交集(IoU)得出的,這是地面真實值和預測邊界框之間的重疊面積和聯合面積的比率。設定門檻值以确定檢測是否正确。如果IoU大于門檻值,則将其分類為真陽性,而低于該門檻值的IoU分類為假陽性。如果模型未能檢測到地面真相中存在的物體,則稱為假陰性。精确性測量正确預測的百分比,而回憶性測量相對于地面真相的正确預測。

用于表檢測和結構識别的深度學習:綜述
用于表檢測和結構識别的深度學習:綜述

根據上述公式,分别計算每個類别的平均精度。為了比較檢測器之間的性能,使用所有類别的平均精度的平均值,稱為平均精度(mAP),作為最終評估的單一度量。

IOU是一種度量标準,用于發現地面真相标注和預測邊界框之間的差異。該度量用于大多數最先進的對象檢測算法。在對象檢測中,該模型預測每個對象的多個邊界框,并基于每個邊界框的置信度分數,根據其門檻值去除不必要的框。我們需要根據我們的要求聲明門檻值。

用于表檢測和結構識别的深度學習:綜述

5.表檢測和結構識别模型

表檢測已經研究了很長一段時間。研究人員使用了不同的方法,可分為以下幾類:

1。基于啟發式的方法

2。基于機器學習的方法

3。基于深度學習的方法

主要基于啟發式的方法主要在1990年代、2000年代和2010年初使用。他們使用不同的視覺線索,如線條、關鍵字、空間特征等來檢測表格。

P.Pyreddy等人[69]提出了一種使用字元對齊、孔洞和間隙檢測表格的方法。Wang等人[70]。使用統計方法根據連續單詞之間的距離檢測表行。采用分組的水準連續單詞和垂直相鄰行來提出表實體候選。Jahan等人[71]提出了一種方法,該方法使用字間距和行高度的局部門檻值來檢測表區域。

Itonori[72]提出了一種基于規則的方法,該方法導緻文本塊排列和規則線位置,以在文檔中本地化表。Chandran和Kasturi[73]開發了另一種基于垂直和水準線的表格檢測方法。Wonkyo Seo等人[56]使用交叉點(水準線和垂直線的交叉點)檢測和進一步處理。

Hassan等人[74]通過分析文本塊的空間特征來定位和分割表格。Ruffolo等人[75]介紹了PDF-TREX,這是一種用于單列PDF文檔中表格識别的啟發式自下而上方法。它使用頁面元素的空間特征将它們對齊并分組為段落和表格。Nurminen[76]提出了一組啟發式方法來定位具有共同對齊的後續文本框,并為其配置設定成為表格的機率。

Fang等人[77]使用表标題作為檢測表區域并分解其元素的起點。Harit等人[78]提出了一種基于唯一表格起始和結尾模式識别的表格檢測技術。Tupaj等人[79]提出了一種基于OCR的表格檢測技術。

系統根據關鍵字搜尋類似表格的行序列。上述方法在具有統一布局的文檔上相對有效。然而,啟發式規則需要調整到更廣泛的表格中,并不真正适用于通用解決方案。是以,機器學習方法開始被用于解決表檢測問題。

基于機器學習的方法在2000年代和2010年代很常見。

Kieniger等人[80]通過聚類詞段應用了一種無監督學習方法。Cesarini等人[81]使用了一種改進的XY樹監督學習方法。Fan等人[82]使用有監督和無監督方法來檢測PDF文檔中的表。Wang和Hu[83]将決策樹和SVM分類器應用于布局、内容類型和詞組特征。T、 Kasar等人[84]使用連接配接檢測,然後将資訊傳遞給SVM分類器。Silva等人[85]将聯合機率分布應用于視覺頁面元素的連續觀察(隐馬爾可夫模型),以将潛在的表行合并到表中。Klampfl等人

[86]比較了數字科學文章中的兩種無監督表格識别方法。Docstrum算法[87]将KNN應用于将結構聚合成線,然後使用線之間的垂直距離和角度将它們組合成文本塊。必須注意的是,該算法是1993年設計的27種,早于本節中提到的其他方法。

F Shafait[88]提出了一種用于表識别的有用方法,該方法在具有一系列布局的文檔上表現良好,包括商業報告、新聞報道和雜志頁面。Teseract OCR引擎提供了算法的開源實作。

随着神經網絡獲得興趣,研究人員開始将其應用于文檔布局分析任務。最初,它們用于更簡單的任務,如表檢測。後來,随着更複雜的體系結構的開發,更多的工作被投入到表列和整體結構識别中。

Hao等人[24]使用CNN來檢測某個區域提案是否為表格。Azka Gilani等人[22]提出了一種基于更快R-CNN的模型,以彌補Hao等人[24]和其他現有方法的局限性。

Sebastian Schreiber等人[20]是第一個使用更快的RCNN執行表檢測和結構識别的人。他等人[89]将FCN用于語義頁面分割。S、 Arif等人[90]試圖通過使用文本的語義顔色編碼來提高Faster R-CNN的準确性。Reza等人[91]将基于GAN的架構組合用于表檢測。

Agarwal等人[92]使用具有雙主幹的Mask R-CNN的多級擴充來檢測表格。

最近,基于 t r a n s f o r m e r transformer transformer 的模型被應用于文檔布局分析,Smock、Brandon等人[63]将Carion等人[93]DEtection transformer架構(變壓器編碼器-解碼器架構)應用于其表資料集,用于表檢測和結構識别任務。Xu等人[94]提出了一種自監督預訓練文檔圖像變換器模型,該模型使用大規模未标記文本圖像進行文檔分析,包括表檢測。

5.1 表格檢測模型

在本節中,我們将檢查用于文檔圖像表檢測的深度學習方法。為了友善讀者,我們将這些方法分為幾個深入學習的想法。表2列出了所有基于對象識别的表檢測政策。它還讨論了這些方法中使用的各種基于深度學習的方法。

吉拉尼[22]展示了如何使用深度學習識别表格。文檔圖檔最初采用建議的技術進行預處理。

然後将這些照片發送到區域建議網絡中進行表檢測,然後是完全連接配接的神經網絡。建議的該方法可以非常精确地處理各種文檔圖檔,包括文檔、研究論文和期刊,以及各種布局。

D Prasad[95]提出了一種用于解釋文檔圖檔中的表格資料的自動表格檢測方法,這主要需要解決兩個問題:表格檢測和表格結構識别。使用單個卷積神經網絡(CNN)模型,為處理表檢測和結構識别挑戰提供增強的基于深度學習的端到端解決方案。CascadeTabNet是一個基于級聯掩碼區域的CNN高分辨率網絡(級聯掩碼R-CNN HRNet)模型,它同時識别表區域并從這些表中識别結構體細胞。

SS Paliwal[96]提出了TableNet,它是一種用于表檢測和結構識别的新的端到端深度學習模型。為了劃分表和列區域,該模型使用表檢測和表結構識别這兩個目标之間的相關性。然後,從發現的表格子區域中,執行基于語義的行提取。

Y Huang[97]描述了一種基于YOLO原理的表檢測算法。作者對YOLOv3進行了各種自适應改進,包括錨點優化技術和兩種後處理方法,以解決文檔對象和真實對象之間的顯著差異。還使用k-means聚類進行錨點優化,以建立比自然對象更适合表的錨點,進而使我們的模型更容易找到表的準确位置。在後處理過程中,将從投影結果中删除額外的空白區域和有噪聲的頁面對象。

L Hao[24]提供了一種檢測PDF文檔中表格的新方法,該方法基于卷積神經網絡,這是最廣泛使用的深度學習模型之一。所建議的方法首先使用一些模糊限制選擇一些類似表的區域,然後建構和細化卷積網絡,以識别所選區域是否為表。

此外,卷積網絡立即提取并使用表格部分的視覺方面,同時還考慮原始PDF文檔中包含的非視覺資訊,以幫助更好的檢測結果。

SA Siddiqui[98]為檢測文檔中的表提供了一種新的政策。這裡給出的方法利用了資料識别任何排列的表的潛力。然而,給定的方法直接起作用在照片上,使其普遍适用于任何格式。所提出的方法使用了可變形CNN和更快速的R-CNN/FPN的獨特組合。

由于表格可能以不同的大小和變換出現,傳統的CNN有一個固定的接受域,這使得表格識别變得困難(定向)。可變形卷積将其接收場建立在輸入上,允許其對其進行整形以比對輸入。由于接受域的這種定制,網絡可以容納任何布局的表格。

N Sun[99]提出了一種用于更快基于R-CNN的表檢測的角點查找方法。Faster R-CNN網絡首先用于實作粗略的表格識别和角落定位。然後,使用坐标比對對屬于同一表的角進行分組。同時過濾不可靠的邊緣。最後,比對的角組對表格邊框進行微調和調整。在像素級,所建議的技術提高了表邊界查找的精度。

I Kavasidis[100]提出了一種使用深度神經網絡、圖形模型和顯著性思想的組合來檢測表格和圖表的方法。M Hole´cek[101]提出了在票據等結構化文檔中利用圖卷積進行表了解的概念,擴充了圖神經網絡的适用性。計劃研究中也使用了PDF文檔。

本研究将行項目表檢測與資訊提取相結合,以解決表檢測問題。任何單詞都可以快速識别為行項目或不使用行項目技術。根據單詞分類,表格區域可能很容易識别,因為與賬單上的其他文本部分相比,表格行能夠非常有效地區分它們。

ÁCasado Garc´ıa[102]使用對象檢測技術,作者表明,在進行徹底檢查後,從更近的域進行微調可以提高表檢測的性能。作者将Mask R-CNN、YOLO、SSD和Retina Net與對象檢測算法結合使用。本研究選擇了兩個基本資料集:TableBank和PascalVOC。

X Zheng[103]提供了全局表提取器(GTE),這是一種用于聯合檢測表和識别單元結構的方法,可以在任何對象檢測模型之上實作。為了借助于單元格放置預測來訓練他們的表格網絡,作者開發了GTE表格,該表格基于表格固有的單元格限制限制引入了新的懲罰。一種稱為GTE單元的新型分層單元識别網絡利用了表格樣式。此外,為了快速且廉價地作者建立了一個規模龐大的訓練和測試資料語料庫,開發了一種自動對已有文本中的表和單元格結構進行分類的方法。

Y Li[104]提供了一種新的網絡,用于生成表格文本的布局元素,并增強較少規則的表格識别的性能。生成對抗網絡(GAN)和該特征生成器模型是可比較的。作者要求特征生成器模型為嚴格管理和松散管理的表提取可比較的特征。

DD Nguyen[105]介紹了TableSegNet,這是一種具有緊湊設計的完全卷積網絡,可同時分離和檢測表。TableSegNet使用較淺的路徑以高分辨率發現表位置,使用較深的路徑以低分辨率檢測表區域,将找到的區域拆分為單獨的表。TableSegNet在整個特征提取過程中使用了具有廣泛核心大小的卷積塊,并在主輸出中使用了額外的表邊界類,以提高檢測和分離能力。

D Zhang[106]提出了一種基于YOLO表的表檢測方法。

為了增強網絡學習表格空間排列方面的能力,作者将對合納入網絡的核心,并建立了一個簡單的特征金字塔網絡,以提高模型效率。

這項研究還提出了一種基于表格的增強技術。

5.2 表格結構識别模型

為了識别文檔圖像中的表結構,本部分回顧了深度學習方法。為了讀者的利益,我們将這些方法劃分為離散的深度學習原則。表3、4列出了基于對象檢測識别表結構的所有方法及其優缺點。它還讨論了這些方法中使用的各種基于深度學習的方法。

A Zucker[107]提出了CluSTi,一種用于識别發票掃描圖像中的表結構的聚類方法,作為一種有效的方法。CluSTi做出了三項貢獻。首先,它使用聚類方法來消除表格圖檔中的高噪聲。其次,它使用最先進的文本識别來提取所有文本框。最後,CluSTi使用具有最佳參數的水準和垂直聚類技術将文本框組織成正确的行和列。Z Zhang[108]提出的拆分、嵌入和合并(SEM)是一種準确的表結構識别器。M Namysl[109]在本研究中提出了一種通用的子產品化表提取方法。

用于表檢測和結構識别的深度學習:綜述
表2:幾種基于深度學習的表檢測方法的優缺點比較

E Koci[110]提供了一種新的方法,用于在确定每個單元格的布局角色後識别電子表格中的表格并建構布局區域。使用圖形模型,它們表達了這些區域之間的空間互相關系。在此基礎上,他們提出了移除和征服(RAC),這是一種基于一組精心選擇的标準的表識别算法。

利用可變形卷積網絡的潛力,SA Siddiqui[51]提出了一種分析文檔圖像中表格模式的獨特方法。P Riba[54]在本文中提出了一種基于圖形的技術,用于識别文檔圖檔中的表格。還使用位置、上下文和内容類型,而不是原始内容(識别文本),是以這隻是一種結構感覺技術,不依賴于語言或文本閱讀品質。E Koci[111]使用基于遺傳的技術進行圖形劃分,以識别與表中表比對的圖形部分。

SA Siddiqui[112]将結構識别問題描述為語義分割問題。為了分割行和列,作者采用了完全卷積網絡。引入了預測平鋪的方法,該方法降低了表結構識别的複雜性,假設表結構中的一緻性。作者從ImageNet中導入了預訓練的模型,并使用了FCN編碼器和解碼器的結構模型。當給定圖像時,模型建立與原始輸入圖檔大小相同的特征。

SA Khan[113]在這項工作中提出了一種基于深度學習的魯棒解決方案,用于從文檔圖檔中的已識别表中提取行和列。在将表格圖檔發送到雙向遞歸神經網絡之前,使用門控遞歸單元(GRU)和所建議的解決方案中具有softmax激活的完全連接配接層對表格圖檔進行預處理。

SF Rashid[114]為不同文檔圖檔中的表内容識别提供了一種新的基于學習的方法。SR Qasim[115]提出了一種基于圖網絡的表識别架構,作為典型神經網絡的一種替代方案。S Raja[116]描述了一種用于識别表結構的方法,該方法結合了細胞檢測和互動子產品來定位細胞,并根據行和列預測它們與其他檢測到的細胞的關系。此外,對作為額外差分分量的單元識别的損失函數添加結構限制。Y Deng[52]研究了端到端表識别的現有問題,他還強調了在這一領域需要更大的資料集。

Y Zou[117]的另一項研究呼籲開發一種使用全卷積網絡的基于圖像的表結構識别技術。所示的工作劃分了表的行、列和單元格。所有表元件的估計邊界都使用連接配接元件分析來增強。根據行和列分隔符的位置,然後為每個單元格配置設定行和列編号。此外,還使用特殊算法來優化蜂窩邊界。

為了識别表中的行和列,KAHashmi[118]提出了一種指導的表結構識别技術。根據這項研究,通過使用錨點優化方法,可以更好地定位行和列。在他們提出的工作中,使用掩碼R-CNN和優化的錨來檢測行和列的邊界。

對表格結構進行分段的另一項工作是W Xue[119]的ReS2TIM論文,該論文描述了從表格中重建句法結構。回歸每個單元格的坐标是該模型的主要目标。

最初使用新技術建構了一個可以識别表中每個單元的鄰居的網絡。在研究中,給出了一個基于距離的權重系統,該系統将幫助網絡克服與訓練相關的班級失衡問題。

C Tensmeyer[120]提出了SPLERGE(拆分和合并),這是另一種使用擴張卷積的方法。他們的政策需要使用兩個不同的深度學習模型,第一個模型建立表格的網格狀布局,第二個模型确定是否可以在多行或多列上進一步跨越單元格。

Nassar[68]為表結構提供了新的識别模型。後者在兩個重要方面增強了PubTabNet端到端深度學習模型的最新編碼器-雙解碼器。首先,作者提供了一種全新的表單元對象檢測解碼器。這使得他們可以輕松通路程式設計PDF中表格單元格的内容,而無需訓練任何專有的OCR解碼器。作者聲稱,這種體系結構的改進使表内容提取更加精确,并使他們能夠使用非英語表。第二,基于變壓器的解碼器取代LSTM解碼器。

S Raja[121]提出了一種新的基于對象檢測的深度模型,該模型專為快速優化而設計,并捕捉表格内單元格的自然排列。即使使用精确的單元格檢測,密集表識别仍然可能存在問題,因為多行/列跨越單元格使得難以捕獲長距離的行/列關系。是以,作者還試圖通過确定唯一的基于直線圖的公式來增強結構識别。作者從語義的角度強調了表中空單元格的相關性。作者建議對一個很好的評估标準進行修改,以考慮這些細胞。為了激發對這個問題的新觀點,然後提供一個中等規模的評估資料集,其中包含根據人類認知模組化的注釋。

X Shen[122]提出了兩個子產品,稱為“彙總行”(RA)和聚合列(CA)。首先,為了生成行和列的粗略預測并解決高誤差容限問題,應用了特征切片和平鋪。其次,計算通道的注意力圖以進一步獲得行和列資訊。為了完成行分割和列分割,作者使用RA和CA建構了一個稱為行和列聚合網絡(RCANet)的語義分割網絡。

C Ma[123]提出了RobusTabNet,這是一種識别表格結構并從各種文檔圖檔中檢測其邊界的新方法。作者建議使用CornerNet作為一個新的區域建議網絡,為Faster-R-CNN生成更高品質的表格建議,這大大提高了Faster R-CNN用于表格識别的定位精度。通過僅利用最小的ResNet-18骨幹網絡。

此外,作者還提出了一種新的拆分和合并方法來識别表結構。在該方法中,使用新的空間CNN分離線預測子產品将每個檢測到的表劃分為網格單元,然後使用網格CNN單元合并子產品來恢複生成單元。他們的表格結構識别器可以準确地識别具有顯著空白區域的表格和幾何變形(甚至彎曲)的表格,因為空間CNN子產品可以在整個表格圖檔中有效地傳輸上下文資訊。B Xiao[124]假設一個複雜的表結構可以用一個圖來表示,其中頂點和邊代表單個單元格及其之間的連接配接。

然後,作者設計了一個條件注意網絡,并将表結構識别問題描述為細胞關聯分類問題(CATT Net)。

Jain[125]建議訓練一個深度網絡,以識别表格圖檔中包含的各種單詞對之間的空間關系,進而破譯表格結構。作者通過單詞深度空間關聯提供了一個名為TSR-DSAW:TSR的端到端管道,該管道以HTML等結構化格式生成表格圖檔的數字表示。建議的技術首先利用文本檢測網絡(如CRAFT)來識别輸入表格圖檔中的每個單詞。接下來,使用動态程式設計建立單詞配對。這些單詞對在每個單獨的圖像中加下劃線,然後提供給DenseNet-121分類器,該分類器已被訓練以識别空間相關性,如同一行、同一列、同一單元格或無。最後,作者對分類器輸出應用後處理,以生成HTML表結構。

H Li[126]将該問題表述為細胞關系提取挑戰,并提供T2,一種成功地從數字儲存的文本中提取表結構的尖端兩階段方法。T2提供了一個廣泛的概念,稱為一個基本連接配接,它準确地表示細胞之間的直接關系。為了找到複雜的表結構,它還建構了一個對齊圖并使用消息傳遞網絡。

6.方法論

7.實驗結果

8.結論

在文檔分析領域中,表分析是一個重要而廣泛研究的問題。由于深度學習思想的使用,解釋表格的挑戰已經發生了巨大的變化,并制定了新的标準。

正如我們在論文引言部分的主要貢獻段落中所說的那樣,我們已經讨論了目前已經取得進展的幾個程序通過實施深度學習概念從文檔圖檔中的表中提取資訊的過程。我們讨論了使用深度學習來檢測、識别和分類表的方法。我們還展示了分别用于檢測和識别表的最知名和最不知名的技術。

正如我們在第7節所做的那樣,所有可公開通路的資料集及其通路詳細資訊都已編譯完畢。在衆多資料集上,我們對已解決的方法進行了徹底的性能比較。在公衆可以自由通路的知名資料集上,最先進的表檢測算法産生了幾乎完美的結果。一旦确定了表格區域,就要對表格進行結構分割,然後進行識别。

我們的結論是,這兩個領域仍有發展機會。

[1] J. Hu, R. S. Kashi, D. Lopresti, G. T. Wilfong, Evaluating the performance of table processing algorithms, International Journal on Document Analysis and Recognition 4 (3) (2002) 140–153.

[2] P. Doll´ar, R. Appel, S. Belongie, P. Perona, Fast feature pyramids for object detection, IEEE transactions on pattern analysis and machine intelligence 36 (8) (2014) 1532–1545.

[3] J. Yang, G. Yang, Modified convolutional neural network based on dropout and the stochastic gradient descent optimizer, Algorithms 11 (3) (2018) 28.

[4] S. Li, W. Liu, G. Xiao, Detection of srew nut images based on deep transfer learning network, in: 2019 Chinese Automation Congress (CAC), IEEE, 2019, pp. 951–955.

[5] K. L. Masita, A. N. Hasan, S. Paul, Pedestrian detection using r-cnn object detector, in: 2018 IEEE Latin American Conference on Computational Intelligence (LA-CCI), IEEE, 2018, pp. 1–6.

[6] Z. Hu, J. Tang, Z. Wang, K. Zhang, L. Zhang, Q. Sun, Deep learning for image-based cancer detection and diagnosis- a survey, Pattern Recognition 83 (2018) 134–149.

[7] J. Redmon, S. Divvala, R. Girshick, A. Farhadi, You only look once:Unified, real-time object detection, in: Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 779–788.

[8] A. Abdallah, A. Berendeyev, I. Nuradin, D. Nurseitov, Tncr:table net detection and classification dataset, Neurocomputing 473 (2022)79–97. doi:10.1016/j.neucom.2021.11.101.URL https://www.sciencedirect.com/science/article/pii/S0925231221018142

[9] R. Fakoor, F. Ladhak, A. Nazi, M. Huber, Using deep learning to enhance cancer diagnosis and classification, in: Proceedings of the international conference on machine learning, Vol. 28, ACM, New York,USA, 2013, pp. 3937–3949.

[10] S. Minaee, Z. Liu, Automatic question-answering using a deep similarity neural network, in: 2017 IEEE Global Conference on Signal and Information Processing (GlobalSIP), IEEE, 2017, pp. 923–927.

[11] A. Abdallah, M. Kasem, M. A. Hamada, S. Sdeek, Automated question-answer medical model based on deep learning technology, in:Proceedings of the 6th International Conference on Engineering & MIS

2020, 2020, pp. 1–8.

[12] A. Arpteg, B. Brinne, L. Crnkovic-Friis, J. Bosch, Software engineering challenges of deep learning, in: 2018 44th Euromicro Conference on Software Engineering and Advanced Applications (SEAA), IEEE, 2018,

pp. 50–59.

[13] M. A. Hamada, A. Abdallah, M. Kasem, M. Abokhalil, Neural network estimation model to optimize timing and schedule of software projects,in: 2021 IEEE International Conference on Smart Information Systems and Technologies (SIST), IEEE, 2021, pp. 1–7.

[14] M. Mahmoud, M. Kasem, A. Abdallah, H. S. Kang, Ae-lstm: Autoencoder with lstm-based intrusion etection in iot, in: 2022 International Telecommunications Conference (ITC-Egypt), IEEE, 2022, pp. 1–6.

[15] W. Xu, J. Jang-Jaccard, A. Singh, Y. Wei, F. Sabrina, Improving performance of autoencoder-based network anomaly detection on nslkdd dataset, IEEE Access 9 (2021) 140136–140146.

[16] S. A. Mahmoud, I. Ahmad, W. G. Al-Khatib, M. Alshayeb, M. T. Parvez, V. M¨argner, G. A. Fink, Khatt: An open arabic offline handwritten text database, Pattern Recognition 47 (3) (2014) 1096–1112.

[17] D. Nurseitov, K. Bostanbekov, D. Kurmankhojayev, A. Alimova,A. Abdallah, R. Tolegenov, Handwritten kazakh and russian (hkr)database for text recognition, Multimedia Tools and Applications 80 (21) (2021) 33075–33097.

[18] N. Toiganbayeva, M. Kasem, G. Abdimanap, K. Bostanbekov, A. Abdallah, A. Alimova, D. Nurseitov, Kohtd: Kazakh offline handwritten text dataset, Signal Processing: Image Communication 108 (2022)116827.

[19] A. Fischer, C. Y. Suen, V. Frinken, K. Riesen, H. Bunke, A fast matching algorithm for graph-based andwriting recognition, in: International Workshop on Graph-Based Representations in Pattern Recognition, Springer, 2013, pp. 194–203.

[20] S. Schreiber, S. Agne, I. Wolf, A. Dengel, S. Ahmed, Deepdesrt: Deep learning for detection and structure recognition of tables in document images, in: 2017 14th IAPR international conference on document analysis and recognition (ICDAR), Vol. 1, IEEE, 2017, pp. 1162–1167.

[21] M. Traquair, E. Kara, B. Kantarci, S. Khan, Deep learning for the detection of tabular information from electronic component datasheets,in: 2019 IEEE Symposium on Computers and Communications (ISCC), IEEE, 2019, pp. 1–6.

[22] A. Gilani, S. R. Qasim, I. Malik, F. Shafait, Table detection using deep learning, in: 2017 14th IAPR international conference on document analysis and recognition (ICDAR), Vol. 1, IEEE, 2017, pp. 771–776.

[23] D. N. Tran, T. A. Tran, A. Oh, S. H. Kim, I. S. Na, Table detection from document image using vertical arrangement of text blocks,International Journal of Contents 11 (4) (2015) 77–85.

[24] L. Hao, L. Gao, X. Yi, Z. Tang, A table detection method for pdf documents based on convolutional neural networks, in: 2016 12th IAPR Workshop on Document Analysis Systems (DAS), IEEE, 2016, pp. 287–292.

[25] S. Mao, A. Rosenfeld, T. Kanungo, Document structure analysis algorithms: a literature survey, Document recognition and retrieval X 5010(2003) 197–207.

[26] E. Kara, M. Traquair, M. Simsek, B. Kantarci, S. Khan, Holistic designfor deep learning-based discovery of tabular structures in datasheet images, Engineering Applications of Artificial Intelligence 90 (2020)

103551.

[27] M. Sarkar, M. Aggarwal, A. Jain, H. Gupta, B. Krishnamurthy, Document structure extraction using prior based high resolution hierarchicalsemantic segmentation, in: European Conference on Computer Vision,Springer, 2020, pp. 649–666.

[28] R. Zanibbi, D. Blostein, J. R. Cordy, A survey of table recognition,Document Analysis and Recognition 7 (1) (2004) 1–16.

[29] D. W. Embley, M. Hurst, D. Lopresti, G. Nagy, Table-processing paradigms: a research survey, International Journal of Document Analysis and Recognition (IJDAR) 8 (2) (2006) 66–86.

[30] B. Co¨uasnon, A. Lemaitre, Recognition of tables and forms (2014).[31] S. Khusro, A. Latif, I. Ullah, On methods and tools of table detection,extraction and annotation in pdf documents, Journal of Information

Science 41 (1) (2015) 41–57.

[32] R. Szeliski, Computer vision: algorithms and applications, SpringerScience & Business Media, 2010.

[33] B. C. G. Lee, Line detection in binary document scans: a case study

with the international tracing service archives, in: 2017 IEEE International Conference on Big Data (Big Data), IEEE, 2017, pp. 2256–2261.

[34] L. Liu, W. Ouyang, X. Wang, P. Fieguth, J. Chen, X. Liu,M. Pietik¨ainen, Deep learning for generic object detection: A survey,International journal of computer vision 128 (2) (2020) 261–318.

[35] Y. Bengio, A. Courville, P. Vincent, Representation learning: A review and new perspectives, IEEE transactions on pattern analysis andmachine intelligence 35 (8) (2013) 1798–1828.

[36] Y. LeCun, Y. Bengio, G. Hinton, et al., Deep learning. nature, 521(7553), 436-444, Google Scholar Google Scholar Cross Ref Cross Ref(2015).

[37] I. Goodfellow, Y. Bengio, A. Courville, Deep learning, MIT press, 2016.[38] G. Litjens, T. Kooi, B. E. Bejnordi, A. A. A. Setio, F. Ciompi,M. Ghafoorian, J. A. Van Der Laak, B. Van Ginneken, C. I. S´anchez,A survey on deep learning in medical image analysis, Medical image analysis 42 (2017) 60–88.

[39] X. X. Zhu, D. Tuia, L. Mou, G.-S. Xia, L. Zhang, F. Xu, F. Fraundorfer,Deep learning in remote sensing: A comprehensive review and list ofresources, IEEE Geoscience and Remote Sensing Magazine 5 (4) (2017)

8–36.

[40] J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, T. Liu,X. Wang, G. Wang, J. Cai, et al., Recent advances in convolutional neural networks, Pattern Recognition 77 (2018) 354–377.

[41] S. Pouyanfar, S. Sadiq, Y. Yan, H. Tian, Y. Tao, M. P. Reyes, M.-L.Shyu, S.-C. Chen, S. S. Iyengar, A survey on deep learning: Algorithms,techniques, and applications, ACM Computing Surveys (CSUR) 51 (5)(2018) 1–36.

[42] T. Young, D. Hazarika, S. Poria, E. Cambria, Recent trends in deep learning based natural language processing, ieee Computational intelligenCe magazine 13 (3) (2018) 55–75.

[43] J. Zhou, G. Cui, S. Hu, Z. Zhang, C. Yang, Z. Liu, L. Wang, C. Li,M. Sun, Graph neural networks: A review of methods and applications,AI Open 1 (2020) 57–81.

[44] Z. Zhang, J. Geiger, J. Pohjalainen, A. E.-D. Mousa, W. Jin,B. Schuller, Deep learning for environmentally robust speech recognition: An overview of recent developments, ACM Transactions onIntelligent Systems and Technology (TIST) 9 (5) (2018) 1–28.

[45] Z. Wu, S. Pan, F. Chen, G. Long, C. Zhang, S. Y. Philip, A comprehensive survey on graph neural etworks, IEEE transactions on neuralnetworks and learning systems 32 (1) (2020) 4–24.

[46] M. D. Zeiler, R. Fergus, Visualizing and understanding convolutionalnetworks, in: European conference on computer vision, Springer, 2014,pp. 818–833.

[47] M. Oquab, L. Bottou, I. Laptev, J. Sivic, Learning and transferringmid-level image representations using convolutional neural networks,in: Proceedings of the IEEE conference on computer vision and patternrecognition, 2014, pp. 1717–1724.

[48] M. G¨obel, T. Hassan, E. Oro, G. Orsi, Icdar 2013 table competition,in: 2013 12th International Conference on Document Analysis andRecognition, IEEE, 2013, pp. 1449–1453.

[49] L. Gao, X. Yi, Z. Jiang, L. Hao, Z. Tang, Icdar2017 competition onpage object detection, in: 2017 14th IAPR International Conferenceon Document Analysis and Recognition (ICDAR), Vol. 1, IEEE, 2017,pp. 1417–1422.

[50] L. Gao, Y. Huang, H. D´ejean, J.-L. Meunier, Q. Yan, Y. Fang, F. Kleber, E. Lang, Icdar 2019 competition on table detection and recognition(ctdar), in: 2019 International Conference on Document Analysis andRecognition (ICDAR), IEEE, 2019, pp. 1510–1515.

[51] S. A. Siddiqui, I. A. Fateh, S. T. R. Rizvi, A. Dengel, S. Ahmed,Deeptabstr: deep learning based table structure recognition, in: 2019International Conference on Document Analysis and Recognition (ICDAR), IEEE, 2019, pp. 1403–1409.

[52] Y. Deng, D. Rosenberg, G. Mann, Challenges in end-to-end neuralscientific table recognition, in: 2019 International Conference on Document Analysis and Recognition (ICDAR), IEEE, 2019, pp. 894–901.

[53] A. W. Harley, A. Ufkes, K. G. Derpanis, Evaluation of deep convolutional nets for document image classification and retrieval, in: 201513th International Conference on Document Analysis and Recognition

(ICDAR), IEEE, 2015, pp. 991–995.

[54] P. Riba, A. Dutta, L. Goldmann, A. Forn´es, O. Ramos, J. Llad´os,Table detection in invoice documents by graph neural networks, in:2019 International Conference on Document Analysis and Recognition

(ICDAR), IEEE, 2019, pp. 122–127.

[55] A. Mondal, P. Lipps, C. Jawahar, Iiit-ar-13k: a new dataset for graphical object detection in documents, in: International Workshop on Document Analysis Systems, Springer, 2020, pp. 216–230.

[56] W. Seo, H. I. Koo, N. I. Cho, Junction-based table detection in cameracaptured document images, International Journal on Document Analysis and Recognition (IJDAR) 18 (1) (2015) 47–57.

[57] A. Shahab, F. Shafait, T. Kieninger, A. Dengel, An open approachtowards the benchmarking of table structure recognition systems, in:Proceedings of the 9th IAPR International Workshop on Document

Analysis Systems, 2010, pp. 113–120.

[58] I. T. Phillips, User’s reference manual for the uw english/technical document image database iii, UW-III English/technical document imagedatabase manual (1996).

[59] J. Hu, R. Kashi, D. Lopresti, G. Nagy, G. Wilfong, Why table groundtruthing is hard, in: Proceedings of Sixth International Conference onDocument Analysis and Recognition, IEEE, 2001, pp. 129–133.

[60] J. Fang, X. Tao, Z. Tang, R. Qiu, Y. Liu, Dataset, ground-truth andperformance metrics for table detection evaluation, in: 2012 10th IAPRInternational Workshop on Document Analysis Systems, IEEE, 2012,

pp. 445–449.

[61] M. Li, L. Cui, S. Huang, F. Wei, M. Zhou, Z. Li, Tablebank: Tablebenchmark for image-based table detection and recognition, in: Proceedings of the 12th Language Resources and Evaluation Conference,

2020, pp. 1918–1925.

[62] N. Siegel, N. Lourie, R. Power, W. Ammar, Extracting scientific figureswith distantly supervised neural networks, in: Proceedings of the 18thACM/IEEE on joint conference on digital libraries, 2018, pp. 223–232.

[63] B. Smock, R. Pesala, R. Abraham, W. Redmond, Pubtables-1m: Towards comprehensive table extraction from unstructured documents,arXiv preprint arXiv:2110.00061 (2021).

[64] Z. Chi, H. Huang, H.-D. Xu, H. Yu, W. Yin, X.-L. Mao, Complicatedtable structure recognition, arXiv preprint arXiv:1908.04729 (2019).

[65] X. Zheng, D. Burdick, L. Popa, P. Zhong, N. X. R. Wang, Globaltable extractor (gte): A framework for joint table identification and cell structure recognition using visual context, Winter Conference forApplications in Computer Vision (WACV) (2021).

[66] X. Zhong, E. ShafieiBavani, A. Jimeno Yepes, Image-based table recognition: data, model, and evaluation, in: European Conference on Computer Vision, Springer, 2020, pp. 564–580.

[67] A. Abdallah, A. Berendeyev, I. Nuradin, D. Nurseitov, Tncr: Tablenet detection and classification dataset, Neurocomputing 473 (2022)79–97.

[68] A. Nassar, N. Livathinos, M. Lysak, P. Staar, Tableformer: Tablestructure understanding with transformers, in: Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition,

2022, pp. 4614–4623.

[69] P. Pyreddy, W. Croft, Tinti: A system for retrieval in text tables title2(1997).

[70] Y. Wangt, I. T. Phillipst, R. Haralick, Automatic table ground truthgeneration and a background-analysis-based table structure extractionmethod, in: Proceedings of Sixth International Conference on Document Analysis and Recognition, IEEE, 2001, pp. 528–532.

[71] M. A. Jahan, R. G. Ragel, Locating tables in scanned documents forreconstructing and republishing, in: 7th International Conference onInformation and Automation for Sustainability, IEEE, 2014, pp. 1–6.

[72] K. Itonori, Table structure recognition based on textblock arrangementand ruled line position, in: Proceedings of 2nd International Conferenceon Document Analysis and Recognition (ICDAR’93), IEEE, 1993, pp.765–768.

[73] S. Chandran, R. Kasturi, Structural recognition of tabulated data, in:Proceedings of 2nd International Conference on Document Analysisand Recognition (ICDAR’93), IEEE, 1993, pp. 516–519.

[74] T. Hassan, R. Baumgartner, Table recognition and understanding frompdf files, in: Ninth International Conference on Document Analysis andRecognition (ICDAR 2007), Vol. 2, IEEE, 2007, pp. 1143–1147.

[75] E. Oro, M. Ruffolo, Trex: An approach for recognizing and extractingtables from pdf documents, in: 2009 10th International Conference onDocument Analysis and Recognition, IEEE, 2009, pp. 906–910.

[76] A. Nurminen, Algorithmic extraction of data in tables in pdf documents, Master’s thesis (2013).

[77] J. Fang, P. Mitra, Z. Tang, C. L. Giles, Table header detection andclassification, in: Twenty-Sixth AAAI Conference on Artificial Intelligence, 2012.

[78] G. Harit, A. Bansal, Table detection in document images using headerand trailer patterns, in: Proceedings of the Eighth Indian Conferenceon Computer Vision, Graphics and Image Processing, 2012, pp. 1–8.

[79] S. Tupaj, Z. Shi, C. H. Chang, H. Alam, Extracting tabular informationfrom text files, EECS Department, Tufts University, Medford, USA 1(1996).

[80] T. Kieninger, A. Dengel, The t-recs table recognition and analysissystem, in: International Workshop on Document Analysis Systems,Springer, 1998, pp. 255–270.

[81] F. Cesarini, S. Marinai, L. Sarti, G. Soda, Trainable table location indocument images, in: Object recognition supported by user interactionfor service robots, Vol. 3, IEEE, 2002, pp. 236–240.

[82] M. Fan, D. S. Kim, Table region detection on large-scale pdf files without labeled data, CoRR, abs/1506.08891 (2015).

[83] Y. Wang, J. Hu, A machine learning based approach for table detectionon the web, in: Proceedings of the 11th international conference onWorld Wide Web, 2002, pp. 242–250.

[84] T. Kasar, P. Barlas, S. Adam, C. Chatelain, T. Paquet, Learning todetect tables in scanned document images using line information, in:2013 12th International Conference on Document Analysis and Recognition, IEEE, 2013, pp. 1185–1189.

[85] A. C. e Silva, Learning rich hidden markov models in document analysis: Table location, in: 2009 10th International Conference on Document Analysis and Recognition, IEEE, 2009, pp. 843–847.

[86] S. Klampfl, K. Jack, R. Kern, A comparison of two unsupervised tablerecognition methods from digital scientific articles, D-Lib Magazine20 (11) (2014) 7.

[87] L. O’Gorman, The document spectrum for page layout analysis, IEEETransactions on pattern analysis and machine intelligence 15 (11)(1993) 1162–1173.

[88] F. Shafait, R. Smith, Table detection in heterogeneous documents, in:Proceedings of the 9th IAPR International Workshop on DocumentAnalysis Systems, 2010, pp. 65–72.

[89] D. He, S. Cohen, B. Price, D. Kifer, C. L. Giles, Multi-scale multi-taskfcn for semantic page segmentation and table detection, in: 2017 14thIAPR International Conference on Document Analysis and Recognition

(ICDAR), Vol. 1, IEEE, 2017, pp. 254–261.

[90] S. Arif, F. Shafait, Table detection in document images using foreground and background features, in: 2018 Digital Image Computing:Techniques and Applications (DICTA), IEEE, 2018, pp. 1–8.

[91] M. M. Reza, S. S. Bukhari, M. Jenckel, A. Dengel, Table localizationand segmentation using gan and cnn, in: 2019 International Conferenceon Document Analysis and Recognition Workshops (ICDARW), Vol. 5,IEEE, 2019, pp. 152–157.

[92] M. Agarwal, A. Mondal, C. Jawahar, Cdec-net: Composite deformablecascade network for table detection in document images, in: 2020 25thInternational Conference on Pattern Recognition (ICPR), IEEE, 2021,

pp. 9491–9498.

[93] N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov,S. Zagoruyko, End-to-end object detection with transformers, in: European conference on computer vision, Springer, 2020, pp. 213–229.

[94] J. Li, Y. Xu, T. Lv, L. Cui, C. Zhang, F. Wei, Dit: Selfsupervised pre-training for document image ransformer, arXivpreprint arXiv:2203.02378 (2022).

[95] D. Prasad, A. Gadpal, K. Kapadni, M. Visave, K. Sultanpure, Cascadetabnet: An approach for end to end table detection and structure recognition from image-based documents, in: Proceedings of theIEEE/CVF conference on computer vision and pattern recognitionworkshops, 2020, pp. 572–573.

[96] S. S. Paliwal, D. Vishwanath, R. Rahul, M. Sharma, L. Vig, Tablenet:Deep learning model for end-to-end table detection and tabular dataextraction from scanned document images, in: 2019 International Conference on Document Analysis and Recognition (ICDAR), IEEE, 2019,pp. 128–133.

[97] Y. Huang, Q. Yan, Y. Li, Y. Chen, X. Wang, L. Gao, Z. Tang, Ayolo-based table detection method, in: 2019 International Conferenceon Document Analysis and Recognition (ICDAR), IEEE, 2019, pp.813–818.

[98] S. A. Siddiqui, M. I. Malik, S. Agne, A. Dengel, S. Ahmed, Decnt: Deepdeformable cnn for table detection, IEEE access 6 (2018) 74151–74161.

[99] N. Sun, Y. Zhu, X. Hu, Faster r-cnn based table detection combining corner locating, in: 2019 International Conference on DocumentAnalysis and Recognition (ICDAR), IEEE, 2019, pp. 1314–1319.

[100] I. Kavasidis, C. Pino, S. Palazzo, F. Rundo, D. Giordano, P. Messina,C. Spampinato, A saliency-based convolutional neural network for tableand chart detection in digitized documents, in: International conference on image analysis and processing, Springer, 2019, pp. 292–302.

[101] M. Holeˇcek, A. Hoskovec, P. Baudiˇs, P. Klinger, Table understanding instructured documents, in: 2019 International Conference on DocumentAnalysis and Recognition Workshops (ICDARW), Vol. 5, IEEE, 2019,

pp. 158–164.

[102] A. Casado-Garc´ıa, C. Dom´ınguez, J. Heras, E. Mata, V. Pascual, The ´benefits of close-domain fine-tuning for table detection in documentimages, in: International workshop on document analysis systems,

Springer, 2020, pp. 199–215.

[103] X. Zheng, D. Burdick, L. Popa, X. Zhong, N. X. R. Wang, Globaltable extractor (gte): A framework for joint table identification andcell structure recognition using visual context, in: Proceedings of theIEEE/CVF winter conference on applications of computer vision, 2021,pp. 697–706.

[104] Y. Li, L. Gao, Z. Tang, Q. Yan, Y. Huang, A gan-based feature generator for table detection, in: 2019 International Conference on DocumentAnalysis and Recognition (ICDAR), IEEE, 2019, pp. 763–768.

[105] D.-D. Nguyen, Tablesegnet: a fully convolutional network for tabledetection and segmentation in document images, International Journalon Document Analysis and Recognition (IJDAR) 25 (1) (2022) 1–14.

[106] D. Zhang, R. Mao, R. Guo, Y. Jiang, J. Zhu, Yolo-table: disclosure document table detection with nvolution, International Journal on Document Analysis and Recognition (IJDAR) (2022) 1–14.

[107] A. Zucker, Y. Belkada, H. Vu, V. N. Nguyen, Clusti: Clustering methodfor table structure recognition in scanned images, Mobile Networks andApplications 26 (4) (2021) 1765–1776.

[108] Z. Zhang, J. Zhang, J. Du, F. Wang, Split, embed and merge: Anaccurate table structure recognizer, Pattern Recognition 126 (2022)108565.

[109] M. Namysl, A. M. Esser, S. Behnke, J. K¨ohler, Flexible table recognition and semantic interpretation system., in: VISIGRAPP (4: VISAPP), 2022, pp. 27–37.

[110] E. Koci, M. Thiele, W. Lehner, O. Romero, Table recognition in spreadsheets via a graph representation, in: 2018 13th IAPR InternationalWorkshop on Document Analysis Systems (DAS), IEEE, 2018, pp.139–144.

[111] E. Koci, M. Thiele, O. Romero, W. Lehner, A genetic-based searchfor adaptive table recognition in spreadsheets, in: 2019 InternationalConference on Document Analysis and Recognition (ICDAR), IEEE,

2019, pp. 1274–1279.

[112] S. A. Siddiqui, P. I. Khan, A. Dengel, S. Ahmed, Rethinking semanticsegmentation for table structure recognition in documents, in: 2019International Conference on Document Analysis and Recognition (ICDAR), IEEE, 2019, pp. 1397–1402.

[113] S. A. Khan, S. M. D. Khalid, M. A. Shahzad, F. Shafait, Table structure extraction with bi-directional gated recurrent unit networks, in:2019 International Conference on Document Analysis and Recognition(ICDAR), IEEE, 2019, pp. 1366–1371.

[114] S. F. Rashid, A. Akmal, M. Adnan, A. A. Aslam, A. Dengel, Tablerecognition in heterogeneous documents using machine learning, in:2017 14th IAPR International conference on document analysis and

recognition (ICDAR), Vol. 1, IEEE, 2017, pp. 777–782.

[115] S. R. Qasim, H. Mahmood, F. Shafait, Rethinking table recognition using graph neural networks, in: 2019 International Conference on Document Analysis and Recognition (ICDAR), IEEE, 2019, pp. 142–147.

[116] S. Raja, A. Mondal, C. Jawahar, Table structure recognition usingtop-down and bottom-up cues, in: European Conference on ComputerVision, Springer, 2020, pp. 70–86.

[117] Y. Zou, J. Ma, A deep semantic segmentation model for image-basedtable structure recognition, in: 2020 15th IEEE International Conference on Signal Processing (ICSP), Vol. 1, IEEE, 2020, pp. 274–280.

[118] K. A. Hashmi, D. Stricker, M. Liwicki, M. N. Afzal, M. Z. Afzal, Guidedtable structure recognition through anchor optimization, IEEE Access9 (2021) 113521–113534.

[119] W. Xue, Q. Li, D. Tao, Res2tim: Reconstruct syntactic structures fromtable images, in: 2019 International Conference on Document Analysisand Recognition (ICDAR), IEEE, 2019, pp. 749–755.

[120] C. Tensmeyer, V. I. Morariu, B. Price, S. Cohen, T. Martinez, Deepsplitting and merging for table structure decomposition, in: 2019 International Conference on Document Analysis and Recognition (ICDAR),

IEEE, 2019, pp. 114–121.

[121] S. Raja, A. Mondal, C. Jawahar, Visual understanding of complex tablestructures from document images, in: Proceedings of the IEEE/CVFWinter Conference on Applications of Computer Vision, 2022, pp.2299–2308.

[122] X. Shen, L. Kong, Y. Bao, Y. Zhou, W. Liu, Rcanet: A rows andcolumns aggregated network for table structure recognition, in: 20223rd Information Communication Technologies Conference (ICTC),IEEE, 2022, pp. 112–116.

[123] C. Ma, W. Lin, L. Sun, Q. Huo, Robust table detection and structure recognition from heterogeneous document images, arXiv preprintarXiv:2203.09056 (2022).

[124] B. Xiao, M. Simsek, B. Kantarci, A. A. Alkheir, Table structure recognition with conditional attention, arXiv preprint arXiv:2203.03819(2022).

[125] A. Jain, S. Paliwal, M. Sharma, L. Vig, Tsr-dsaw: Table structure recognition via deep spatial association of words, arXiv preprintarXiv:2203.06873 (2022).

[126] H. Li, L. Zeng, W. Zhang, J. Zhang, J. Fan, M. Zhang, A two-phase approach for recognizing tables with complex structures, in: InternationalConference on Database Systems for Advanced Applications, Springer,

2022, pp. 587–595.

[127] S. Ren, K. He, R. Girshick, J. Sun, Faster r-cnn: Towards realtime object detection with region proposal networks, arXiv preprintarXiv:1506.01497 (2015).

[128] K. He, G. Gkioxari, P. Dollar, R. Girshick, Mask r-cnn, 2017 IEEEInternational Conference on Computer Vision (ICCV) (Oct 2017).

[129] K. Sun, B. Xiao, D. Liu, J. Wang, Deep high-resolution representationlearning for human pose estimation, in: CVPR, 2019.

[130] K. Sun, Y. Zhao, B. Jiang, T. Cheng, B. Xiao, D. Liu, Y. Mu, X. Wang,W. Liu, J. Wang, High-resolution representations for labeling pixelsand regions, CoRR abs/1904.04514 (2019).

[131] A. Newell, K. Yang, J. Deng, Stacked hourglass networks for humanpose estimation, in: European conference on computer vision, Springer,2016, pp. 483–499.

[132] E. Insafutdinov, L. Pishchulin, B. Andres, M. Andriluka, B. Schiele,Deepercut: A deeper, stronger, and faster multi-person pose estimationmodel, in: European Conference on Computer Vision, Springer, 2016,pp. 34–50.

[133] B. Xiao, H. Wu, Y. Wei, Simple baselines for human pose estimationand tracking, in: Proceedings of the European conference on computervision (ECCV), 2018, pp. 466–481.

[134] W. Yang, S. Li, W. Ouyang, H. Li, X. Wang, Learning feature pyramidsfor human pose estimation, in: proceedings of the IEEE internationalconference on computer vision, 2017, pp. 1281–1290.

[135] H. Zhang, C. Wu, Z. Zhang, Y. Zhu, Z. Zhang, H. Lin, Y. Sun, T. He,J. Muller, R. Manmatha, M. Li, A. Smola, Resnest: Split-attentionnetworks, arXiv preprint arXiv:2004.08955 (2020).

[136] H. Zhang, H. Chang, B. Ma, N. Wang, X. Chen, Dynamic R-CNN:Towards high quality object detection via dynamic training, arXiv

preprint arXiv:2004.06002 (2020).

[137] K. Chen, J. Wang, J. Pang, Y. Cao, Y. Xiong, X. Li, S. Sun, W. Feng,Z. Liu, J. Xu, et al., Mmdetection: Open mmlab detection toolbox andbenchmark, arXiv preprint arXiv:1906.07155 (2019).

[138] S. Wu, J. Yang, X. Wang, X. Li, Iou-balanced loss functions for singlestage object detection, arXiv preprint arXiv:1908.05641 (2019).

繼續閱讀