C# 读取PDF中的表格

2021-10-19 16:25:00

本文介绍在C#程序中（附VB.NET代码）提取PDF中的表格的方法，调用Spire.PDF for .NET提供的提取表格的类以及方法等来获取表格单元格中的文本内容；代码内容中涉及到的主要类及方法归纳如下表，供参考：

类型

描述

PdfDocument Class

Represents a pdf document model.

PdfDocument.LoadFromFile(string filename) Method

Loads a PDF document.

PdfTableExtractor Class

Represents the PDF table extractor.

PdfTable Class

Defines a PDF table.

PdfTableExtractor. ExtractTable(int pageIndex) Method

Extracts table from page.

PdfTable.GetText(int rowIndex,int columnIndex) Method

Gets Text in cell.

File.WriteAllText() Method

Saves extracted text in table to a .txt file.

Visual Studio 2017

.net framework 4.6.1

PDF测试文档

库：Spire.PDF for .NET 7.10.4

引用dll文件的2种方法：

方法1：通过NuGet安装。

【步骤】

鼠标右键点击“引用”，“管理NuGet程序包”，

点击“浏览”，在搜索框中输入，点击“安装”，

或者使用PM控制台安装:

PM>Install-Package Spire.PDF -Version 7.10.4

方法2：手动添加引用。

鼠标右键点击“引用”，“添加引用”，

点击“浏览”，“浏览”，将本地路径下的dll文件（需提前下载到本地，并解压）添加到引用列表

点击OK,完成引用：

VB.NET

表格内容提取结果：

其他注意事项：

代码中的PDF文件以及生成的.txt文件路径为 F:\VS2017Project\ExtractTable\bin\Debug\sample.pdf 和 F:\VS2017Project\ ExtractTable\bin\Debug\ExtractedTable.txt。文件路径也可以自定义为其他路径。

注意使用的dll文件版本。低于7.10.4的其他版本不支持提取表格。

—End—

C# 读取PDF中的表格

继续阅读

C#基础——与C#的第一次邂逅声明：IDE：第一个C#果实：Console浅析：总结：

英文月日年日期格式的实现

II6 IIS7 下 asp.net的生命周期 ASP.NET Application Life Cycle Overview for IIS 5.0 and 6.0

2010年终总结--技术篇

如何成为一名.net 工程师?

C# 字节数组 byte[] 快速比较算法

C# 字节数组、字符串转化字节数组转字符串字符串转字节数组字节数组转整数整数转字节数组字符串转字节字符串转数值数值转字符串

C#用Zlib压缩或解压缩字节数组

C# 比较两个字节数组是否相等

对于VS中scanf报错永久解决，创建源文件自动添加#define _CRT_SECURE_NO_WARNINGS 1

《C#高级编程》读书笔记 -索引

CQ V1.0分词bates(基于双数组tire树)—应该是目前最快的中文分词算法

C#多线程——前台线程和后台线程

C#+ArcEngine代码检测ArcEngine Runtime是否安装以及是否授权

七牛云-C#SDK-上传-前期准备

博客9-10表格表格 table(会使用)表单标签(掌握)HTML5新标签与特性总结