本文介绍在C#程序中(附VB.NET代码)提取PDF中的表格的方法,调用Spire.PDF for .NET提供的提取表格的类以及方法等来获取表格单元格中的文本内容;代码内容中涉及到的主要类及方法归纳如下表,供参考:
类型
描述
PdfDocument Class
Represents a pdf document model.
PdfDocument.LoadFromFile(string filename) Method
Loads a PDF document.
PdfTableExtractor Class
Represents the PDF table extractor.
PdfTable Class
Defines a PDF table.
PdfTableExtractor. ExtractTable(int pageIndex) Method
Extracts table from page.
PdfTable.GetText(int rowIndex,int columnIndex) Method
Gets Text in cell.
File.WriteAllText() Method
Saves extracted text in table to a .txt file.
Visual Studio 2017
.net framework 4.6.1
PDF测试文档
库:Spire.PDF for .NET 7.10.4
引用dll文件的2种方法:
方法1:通过NuGet安装。
【步骤】
鼠标右键点击“引用”,“管理NuGet程序包”,
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLicmbw5SOzMjM5MTM0MTMtQzNwcTMxEjNxkTMwETMyAjMtATOwYDM38CXwETMyAjMvwFM5AjNwczLcd2bsJ2Lc12bj5ycn9Gbi52YuAjMwIzZtl2Lc9CX6MHc0RHaiojIsJye.png)
点击“浏览”,在搜索框中输入,点击“安装”,
或者使用PM控制台安装:
PM>Install-Package Spire.PDF -Version 7.10.4
方法2:手动添加引用。
鼠标右键点击“引用”,“添加引用”,
点击“浏览”,“浏览”,将本地路径下的dll文件(需提前下载到本地,并解压)添加到引用列表
点击OK,完成引用:
C#
VB.NET
表格内容提取结果:
其他注意事项:
代码中的PDF文件以及生成的.txt文件路径为 F:\VS2017Project\ExtractTable\bin\Debug\sample.pdf 和 F:\VS2017Project\ ExtractTable\bin\Debug\ExtractedTable.txt。文件路径也可以自定义为其他路径。
注意使用的dll文件版本。低于7.10.4的其他版本不支持提取表格。
—End—