百度上根據pdf轉makrdown為關鍵字進行搜尋,結果大多數是反過來的轉換,即markdown文本轉PDF格式。
但是PDF轉markdown的解決方案很少。
正好我工作上有這個需求,是以自己實作了一個解決方案。
下圖是一個用PDF XChange Editor打開的PDF檔案,我想将其内容通過markdown格式導出。
(1) 首先将該PDF導出成word格式,字尾.docx
(2) 使用typora獲得該word文檔的markdown源代碼:
此時任務隻完成了一半,因為typora這個工具轉換成的markdown格式,如果原始的word文檔裡包含圖檔,這些圖檔以本地圖檔的形式存在于markdown裡,那我如果直接将包含了這些本地圖檔的标簽的markdown釋出到簡書,CSDN,開源中國,騰訊雲,阿裡雲這些支援markdown的社群時,這些本地圖檔将無法顯示。
是以我們必須找到一個高效的方法,将word裡包含的本地圖檔先上傳到網絡上,再用生成的包含了圖檔網絡url的markdown标簽替換本地圖檔标簽。
(3) 把word檔案的字尾從.docx改成.zip, 解壓後,在檔案夾word的子檔案夾media裡能找到所有的本地檔案。
把這些本地檔案全部上傳到網站,生成下面這些url:
我寫了一個工具,可以把僅包含了本地圖檔标簽的markdown源代碼和包含了上述線上圖檔url标簽的源代碼做一個合并,後并後,本地圖檔标簽會被線上圖檔标簽取代:
這個工具可以從我github上獲得:
https://github.com/i042416/KnowlegeRepository/blob/master/practice/255_markdown_tool.html下圖就是我的原始PDF轉換成markdown格式後釋出在某社群上的效果,和原始PDF外觀完全一緻:
本文來自雲栖社群合作夥伴“汪子熙”,了解相關資訊可以關注微信公衆号"汪子熙"。