天天看点

C# 读取PDF中的表格

本文介绍在C#程序中(附VB.NET代码)提取PDF中的表格的方法,调用Spire.PDF for .NET提供的提取表格的类以及方法等来获取表格单元格中的文本内容;代码内容中涉及到的主要类及方法归纳如下表,供参考:

类型

描述

PdfDocument Class

Represents a pdf document model.

PdfDocument.LoadFromFile(string filename) Method

Loads a PDF document.

PdfTableExtractor Class

Represents the PDF table extractor.

PdfTable Class

Defines a PDF table.

PdfTableExtractor. ExtractTable(int pageIndex) Method

Extracts table from page.

PdfTable.GetText(int rowIndex,int columnIndex) Method

Gets Text in cell.

File.WriteAllText() Method

Saves extracted text in table to a .txt file.

  Visual Studio 2017

  .net framework 4.6.1

  PDF测试文档

  库:Spire.PDF for .NET 7.10.4

引用dll文件的2种方法:

方法1:通过NuGet安装。

【步骤】

鼠标右键点击“引用”,“管理NuGet程序包”,

C# 读取PDF中的表格

点击“浏览”,在搜索框中输入,点击“安装”,

C# 读取PDF中的表格

或者使用PM控制台安装:

  PM>Install-Package Spire.PDF -Version 7.10.4  

方法2:手动添加引用。

鼠标右键点击“引用”,“添加引用”,

C# 读取PDF中的表格

点击“浏览”,“浏览”,将本地路径下的dll文件(需提前下载到本地,并解压)添加到引用列表

C# 读取PDF中的表格
C# 读取PDF中的表格

点击OK,完成引用:

C# 读取PDF中的表格

C#

VB.NET

表格内容提取结果:

C# 读取PDF中的表格

其他注意事项:

代码中的PDF文件以及生成的.txt文件路径为 F:\VS2017Project\ExtractTable\bin\Debug\sample.pdf 和 F:\VS2017Project\ ExtractTable\bin\Debug\ExtractedTable.txt。文件路径也可以自定义为其他路径。

注意使用的dll文件版本。低于7.10.4的其他版本不支持提取表格。

—End—

继续阅读