天天看點

Python程式設計:讀取pdf、pptx、docx、xlsx檔案的頁數pdfpptxdocx、xlsx

pdf

安裝工具

pip install pdfplumber      

代碼示例

import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError

def get_pdf_page(pdf_path):
    try:
        f = pdfplumber.open(pdf_path)
        page = len(f.pages)
    except PDFSyntaxError:
        page = 0
    return page
      

pptx

pip install python-pptx      

from pptx import Presentation

def get_pptx_page(pptx_path):
    try:
        p = Presentation(pptx_path)
        page = len(p.slides)
    except KeyError:
        page = 0
    return page      

docx、xlsx

Word是流動分頁的,檔案内容本身并不存儲分頁結果。具體分頁時斷在哪裡、最後分出多少頁,都需要現場渲染所有的圖文内容之後才能确定。

Word檔案中僅包含了一行一行的文本,與頁面設定中指定的頁面尺寸。

Word每次打開檔案時都會一行一行“擺放”文本資料,發現一頁裝不下了自動新開一頁

是以,讀取頁數是不對的

參考

  1. 如何在 Linux 上使用 Python 讀取 word 檔案資訊(如頁數)?
  2. Python程式設計:pypdf2和pdfplumber擷取pdf檔案的頁數