在日常工作或學習中,經常會遇到這樣的無奈:
“小任,你把這個PDF中的檔案碼出來發我”
艹,倒黴,2M的PDF12點也完不了啊!

很多時候在學習時發現許多文檔都是PDF格式,PDF格式卻不利于學習使用,是以需要将PDF轉換為Word檔案,但或許你從網上下載下傳了很多軟體,但隻能轉換前五頁(如WPS等),要不就是需要收費,那有沒有免費的轉換軟體呢?
so,我們給各位帶來了一個免費簡單快速的方法,手把手教你用Python批量處理PDF格式檔案,擷取自己想要的内容,存為word形式。
在實作PDF轉Word功能之前,我們需要一個python的編寫和運作環境,同時安裝好相關的依賴包。 對于python環境,我們推薦使用PyCharm。 在本地電腦環境,anaconda提供了非常便利的安裝和部署。
PDF轉Word功能所需的依賴包如下:
PDFParser(文檔分析器)
PDFDocument(文檔對象)
PDFResourceManager(資料總管)
PDFPageInterpreter(解釋器)
PDFPageAggregator(聚合器)
LAParams(參數分析器)
前期準備工作
說明:本文是在Windows7下使用python最新的3.6版本
1.安裝pdfminer3k子產品
安裝anaconda後,直接可以通過pip安裝
2.若安裝不成功,可以試試下面方法
首先下載下傳pdfminer3k:https://pypi.python.org/pypi/pdfminer3k;然後安裝pdfminer,将下載下傳好的pdfminer3k解壓到D:或其他合适的盤符,通過win+r 打開運作視窗,輸入cmd;輸入D:切換到D盤,cd pdfminer3k(pdf解壓的檔案夾),輸入setup.py install安裝軟體。
最終顯示Finished,則代表成功
代碼實操
1.導入相關包
整體思路為:構造文檔對象,解析文檔對象,提取所需内容
構造文檔對象
構造解釋器
2.導入需要解析的PDF檔案
将所需解析的檔案與執行代碼放到同一個目錄下,如圖:
test.pdf内容
3.具體代碼如下:
最終得到的test.txt結果如下:
結束
對于Python批量PDF轉Word的操作介紹就到此,本文僅僅作為一種運用庫展示代碼編寫過程,具體技術還需要有興趣的朋友,與我一起讨論專研,互相學習進步。
原文釋出時間為:2018-02-23
本文作者:丁彥軍