本文介紹在C#程式中(附VB.NET代碼)提取PDF中的表格的方法,調用Spire.PDF for .NET提供的提取表格的類以及方法等來擷取表格單元格中的文本内容;代碼内容中涉及到的主要類及方法歸納如下表,供參考:
類型
描述
PdfDocument Class
Represents a pdf document model.
PdfDocument.LoadFromFile(string filename) Method
Loads a PDF document.
PdfTableExtractor Class
Represents the PDF table extractor.
PdfTable Class
Defines a PDF table.
PdfTableExtractor. ExtractTable(int pageIndex) Method
Extracts table from page.
PdfTable.GetText(int rowIndex,int columnIndex) Method
Gets Text in cell.
File.WriteAllText() Method
Saves extracted text in table to a .txt file.
Visual Studio 2017
.net framework 4.6.1
PDF測試文檔
庫:Spire.PDF for .NET 7.10.4
引用dll檔案的2種方法:
方法1:通過NuGet安裝。
【步驟】
滑鼠右鍵點選“引用”,“管理NuGet程式包”,
點選“浏覽”,在搜尋框中輸入,點選“安裝”,
或者使用PM控制台安裝:
PM>Install-Package Spire.PDF -Version 7.10.4
方法2:手動添加引用。
滑鼠右鍵點選“引用”,“添加引用”,
點選“浏覽”,“浏覽”,将本地路徑下的dll檔案(需提前下載下傳到本地,并解壓)添加到引用清單
點選OK,完成引用:
C#
VB.NET
表格内容提取結果:
其他注意事項:
代碼中的PDF檔案以及生成的.txt檔案路徑為 F:\VS2017Project\ExtractTable\bin\Debug\sample.pdf 和 F:\VS2017Project\ ExtractTable\bin\Debug\ExtractedTable.txt。檔案路徑也可以自定義為其他路徑。
注意使用的dll檔案版本。低于7.10.4的其他版本不支援提取表格。
—End—