天天看點

C# 讀取PDF中的表格

本文介紹在C#程式中(附VB.NET代碼)提取PDF中的表格的方法,調用Spire.PDF for .NET提供的提取表格的類以及方法等來擷取表格單元格中的文本内容;代碼内容中涉及到的主要類及方法歸納如下表,供參考:

類型

描述

PdfDocument Class

Represents a pdf document model.

PdfDocument.LoadFromFile(string filename) Method

Loads a PDF document.

PdfTableExtractor Class

Represents the PDF table extractor.

PdfTable Class

Defines a PDF table.

PdfTableExtractor. ExtractTable(int pageIndex) Method

Extracts table from page.

PdfTable.GetText(int rowIndex,int columnIndex) Method

Gets Text in cell.

File.WriteAllText() Method

Saves extracted text in table to a .txt file.

  Visual Studio 2017

  .net framework 4.6.1

  PDF測試文檔

  庫:Spire.PDF for .NET 7.10.4

引用dll檔案的2種方法:

方法1:通過NuGet安裝。

【步驟】

滑鼠右鍵點選“引用”,“管理NuGet程式包”,

C# 讀取PDF中的表格

點選“浏覽”,在搜尋框中輸入,點選“安裝”,

C# 讀取PDF中的表格

或者使用PM控制台安裝:

  PM>Install-Package Spire.PDF -Version 7.10.4  

方法2:手動添加引用。

滑鼠右鍵點選“引用”,“添加引用”,

C# 讀取PDF中的表格

點選“浏覽”,“浏覽”,将本地路徑下的dll檔案(需提前下載下傳到本地,并解壓)添加到引用清單

C# 讀取PDF中的表格
C# 讀取PDF中的表格

點選OK,完成引用:

C# 讀取PDF中的表格

C#

VB.NET

表格内容提取結果:

C# 讀取PDF中的表格

其他注意事項:

代碼中的PDF檔案以及生成的.txt檔案路徑為 F:\VS2017Project\ExtractTable\bin\Debug\sample.pdf 和 F:\VS2017Project\ ExtractTable\bin\Debug\ExtractedTable.txt。檔案路徑也可以自定義為其他路徑。

注意使用的dll檔案版本。低于7.10.4的其他版本不支援提取表格。

—End—

繼續閱讀