天天看點

手把手 | 20行Python代碼教你批量将PDF轉為Word

在日常工作或學習中,經常會遇到這樣的無奈:

“小任,你把這個PDF中的檔案碼出來發我”

艹,倒黴,2M的PDF12點也完不了啊!

手把手 | 20行Python代碼教你批量将PDF轉為Word

很多時候在學習時發現許多文檔都是PDF格式,PDF格式卻不利于學習使用,是以需要将PDF轉換為Word檔案,但或許你從網上下載下傳了很多軟體,但隻能轉換前五頁(如WPS等),要不就是需要收費,那有沒有免費的轉換軟體呢?

so,我們給各位帶來了一個免費簡單快速的方法,手把手教你用Python批量處理PDF格式檔案,擷取自己想要的内容,存為word形式。

在實作PDF轉Word功能之前,我們需要一個python的編寫和運作環境,同時安裝好相關的依賴包。 對于python環境,我們推薦使用PyCharm。 在本地電腦環境,anaconda提供了非常便利的安裝和部署。

PDF轉Word功能所需的依賴包如下:

PDFParser(文檔分析器)

PDFDocument(文檔對象)

PDFResourceManager(資料總管)

PDFPageInterpreter(解釋器)

PDFPageAggregator(聚合器)

LAParams(參數分析器)

前期準備工作

說明:本文是在Windows7下使用python最新的3.6版本

1.安裝pdfminer3k子產品

安裝anaconda後,直接可以通過pip安裝

手把手 | 20行Python代碼教你批量将PDF轉為Word

2.若安裝不成功,可以試試下面方法

首先下載下傳pdfminer3k:https://pypi.python.org/pypi/pdfminer3k;然後安裝pdfminer,将下載下傳好的pdfminer3k解壓到D:或其他合适的盤符,通過win+r 打開運作視窗,輸入cmd;輸入D:切換到D盤,cd pdfminer3k(pdf解壓的檔案夾),輸入setup.py install安裝軟體。

手把手 | 20行Python代碼教你批量将PDF轉為Word

最終顯示Finished,則代表成功

代碼實操

1.導入相關包

整體思路為:構造文檔對象,解析文檔對象,提取所需内容

手把手 | 20行Python代碼教你批量将PDF轉為Word

構造文檔對象

手把手 | 20行Python代碼教你批量将PDF轉為Word

構造解釋器

2.導入需要解析的PDF檔案

将所需解析的檔案與執行代碼放到同一個目錄下,如圖:

手把手 | 20行Python代碼教你批量将PDF轉為Word

test.pdf内容

3.具體代碼如下:

最終得到的test.txt結果如下:

手把手 | 20行Python代碼教你批量将PDF轉為Word

結束

對于Python批量PDF轉Word的操作介紹就到此,本文僅僅作為一種運用庫展示代碼編寫過程,具體技術還需要有興趣的朋友,與我一起讨論專研,互相學習進步。

原文釋出時間為:2018-02-23

本文作者:丁彥軍