C# 讀取PDF中的表格

2021-10-19 16:25:00

本文介紹在C#程式中（附VB.NET代碼）提取PDF中的表格的方法，調用Spire.PDF for .NET提供的提取表格的類以及方法等來擷取表格單元格中的文本内容；代碼内容中涉及到的主要類及方法歸納如下表，供參考：

類型

描述

PdfDocument Class

Represents a pdf document model.

PdfDocument.LoadFromFile(string filename) Method

Loads a PDF document.

PdfTableExtractor Class

Represents the PDF table extractor.

PdfTable Class

Defines a PDF table.

PdfTableExtractor. ExtractTable(int pageIndex) Method

Extracts table from page.

PdfTable.GetText(int rowIndex,int columnIndex) Method

Gets Text in cell.

File.WriteAllText() Method

Saves extracted text in table to a .txt file.

Visual Studio 2017

.net framework 4.6.1

PDF測試文檔

庫：Spire.PDF for .NET 7.10.4

引用dll檔案的2種方法：

方法1：通過NuGet安裝。

【步驟】

滑鼠右鍵點選“引用”，“管理NuGet程式包”，

點選“浏覽”，在搜尋框中輸入，點選“安裝”，

或者使用PM控制台安裝:

PM>Install-Package Spire.PDF -Version 7.10.4

方法2：手動添加引用。

滑鼠右鍵點選“引用”，“添加引用”，

點選“浏覽”，“浏覽”，将本地路徑下的dll檔案（需提前下載下傳到本地，并解壓）添加到引用清單

點選OK,完成引用：

VB.NET

表格内容提取結果：

其他注意事項：

代碼中的PDF檔案以及生成的.txt檔案路徑為 F:\VS2017Project\ExtractTable\bin\Debug\sample.pdf 和 F:\VS2017Project\ ExtractTable\bin\Debug\ExtractedTable.txt。檔案路徑也可以自定義為其他路徑。

注意使用的dll檔案版本。低于7.10.4的其他版本不支援提取表格。

—End—

C# 讀取PDF中的表格

繼續閱讀

C#基礎——與C#的第一次邂逅聲明：IDE：第一個C#果實：Console淺析：總結：

英文月日年日期格式的實作

II6 IIS7 下 asp.net的生命周期 ASP.NET Application Life Cycle Overview for IIS 5.0 and 6.0

2010年終總結--技術篇

如何成為一名.net 工程師?

C# 位元組數組 byte[] 快速比較算法

C# 位元組數組、字元串轉化位元組數組轉字元串字元串轉位元組數組位元組數組轉整數整數轉位元組數組字元串轉位元組字元串轉數值數值轉字元串

C#用Zlib壓縮或解壓縮位元組數組

C# 比較兩個位元組數組是否相等

對于VS中scanf報錯永久解決，建立源檔案自動添加#define _CRT_SECURE_NO_WARNINGS 1

《C#進階程式設計》讀書筆記 -索引

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

C#多線程——前台線程和背景線程

C#+ArcEngine代碼檢測ArcEngine Runtime是否安裝以及是否授權

七牛雲-C#SDK-上傳-前期準備

部落格9-10表格表格 table(會使用)表單标簽(掌握)HTML5新标簽與特性總結