安裝工具
pip install pdfplumber
代碼示例
import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError
def get_pdf_page(pdf_path):
try:
f = pdfplumber.open(pdf_path)
page = len(f.pages)
except PDFSyntaxError:
page = 0
return page
pptx
pip install python-pptx
from pptx import Presentation
def get_pptx_page(pptx_path):
try:
p = Presentation(pptx_path)
page = len(p.slides)
except KeyError:
page = 0
return page
docx、xlsx
Word是流動分頁的,檔案内容本身并不存儲分頁結果。具體分頁時斷在哪裡、最後分出多少頁,都需要現場渲染所有的圖文内容之後才能确定。
Word檔案中僅包含了一行一行的文本,與頁面設定中指定的頁面尺寸。
Word每次打開檔案時都會一行一行“擺放”文本資料,發現一頁裝不下了自動新開一頁
是以,讀取頁數是不對的
參考