天天看點

python解析庫的安裝1. lxml簡介和安裝2. Beautiful Soup簡介和安裝3. pyquery簡介和安裝4. tesserocr簡介和安裝

python解析庫的安裝

  • 1. lxml簡介和安裝
  • 2. Beautiful Soup簡介和安裝
  • 3. pyquery簡介和安裝
  • 4. tesserocr簡介和安裝

當我們抓取網頁代碼後,下一步就從網頁中提取資訊,提取資訊的方式有多種多樣,可以使用正則來提取,但很繁瑣。是以我們要用強大的解析庫來操作:如lxml,Beautiful Soup,pyquery等;還有非常強大的解析方法:如XPath和CSS選擇器解析等。有了他們,我們就可以高效從網頁中提取有效資訊。

1. lxml簡介和安裝

lxml是python的一個解析庫,支援html和xml的解析庫,支援XPath解析方式,解析效率非常高。

1 windows下簡單粗暴安裝方法:pip install lxml,如果pip有問題,可以用wheel方式安裝,網上搜一個對應版本的lxml-xxx.whl包, 然後用 pip install lxml-xxx.whl;

2. Beautiful Soup簡介和安裝

Beautiful Soup是python的一個解析庫,支援html和xml的解析庫,可以用它友善地從網頁中提取資料,它擁有強大的API和多樣的解析方式,

安裝方式:pip install beautifulsoup4 或者使用wheel方式安裝

3. pyquery簡介和安裝

pyquery同樣是一個強大的網頁解析工具,它提供了和jQuery類似的文法來解析HTML文檔,支援CSS選擇器,使用非常友善。

安裝方式:pip install pyquery 或者 使用wheel方式安裝

4. tesserocr簡介和安裝

在爬取過程中,難免會遇到各種各樣的驗證碼,而大多數驗證碼還是圖形驗證碼,這時可以用OCR識别(OCR:Optical Character Recognition,光學字元識别,通過掃描字元,将形狀翻譯成電子文本的過程)

tesserocr是python的一個OCR識别庫,但其實是tessract做的一層Python API封裝,是以它的核心是tesseract,是以,安裝tesserocr之前,要安裝tesseract。

windows下的安裝,先下載下傳tesseract,它提供了tesserocr的支援;

下載下傳之後是一個.exe檔案直接安裝就好;安裝時可以勾選Additional language data(download)選項來安裝OCR識别支援的語言包。

安裝完成後,在安裝tersserocr,

安裝指令:pip install tesserocr pillow

在安裝tesserocr時報錯了,沒辦法隻能自己找個wheel檔案下載下傳了。安裝成功,下載下傳成功的.whl檔案,這樣安裝:pip install E:\tesserocr-2.4.0-cp37-cp37m-win_amd64.whl 然後在安裝pip install pillow

安裝完後測試一下:識别一下這個位址的圖檔上得東西:https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png

python解析庫的安裝1. lxml簡介和安裝2. Beautiful Soup簡介和安裝3. pyquery簡介和安裝4. tesserocr簡介和安裝

将圖檔下載下傳到本地:

然後使用指令:

python解析庫的安裝1. lxml簡介和安裝2. Beautiful Soup簡介和安裝3. pyquery簡介和安裝4. tesserocr簡介和安裝

打開result.txt看看識别的情況

python解析庫的安裝1. lxml簡介和安裝2. Beautiful Soup簡介和安裝3. pyquery簡介和安裝4. tesserocr簡介和安裝

我們在用tesserocr試一試:

在python環境下

python解析庫的安裝1. lxml簡介和安裝2. Beautiful Soup簡介和安裝3. pyquery簡介和安裝4. tesserocr簡介和安裝

繼續閱讀