python解析庫的安裝
- 1. lxml簡介和安裝
- 2. Beautiful Soup簡介和安裝
- 3. pyquery簡介和安裝
- 4. tesserocr簡介和安裝
當我們抓取網頁代碼後,下一步就從網頁中提取資訊,提取資訊的方式有多種多樣,可以使用正則來提取,但很繁瑣。是以我們要用強大的解析庫來操作:如lxml,Beautiful Soup,pyquery等;還有非常強大的解析方法:如XPath和CSS選擇器解析等。有了他們,我們就可以高效從網頁中提取有效資訊。
1. lxml簡介和安裝
lxml是python的一個解析庫,支援html和xml的解析庫,支援XPath解析方式,解析效率非常高。
1 windows下簡單粗暴安裝方法:pip install lxml,如果pip有問題,可以用wheel方式安裝,網上搜一個對應版本的lxml-xxx.whl包, 然後用 pip install lxml-xxx.whl;
2. Beautiful Soup簡介和安裝
Beautiful Soup是python的一個解析庫,支援html和xml的解析庫,可以用它友善地從網頁中提取資料,它擁有強大的API和多樣的解析方式,
安裝方式:pip install beautifulsoup4 或者使用wheel方式安裝
3. pyquery簡介和安裝
pyquery同樣是一個強大的網頁解析工具,它提供了和jQuery類似的文法來解析HTML文檔,支援CSS選擇器,使用非常友善。
安裝方式:pip install pyquery 或者 使用wheel方式安裝
4. tesserocr簡介和安裝
在爬取過程中,難免會遇到各種各樣的驗證碼,而大多數驗證碼還是圖形驗證碼,這時可以用OCR識别(OCR:Optical Character Recognition,光學字元識别,通過掃描字元,将形狀翻譯成電子文本的過程)
tesserocr是python的一個OCR識别庫,但其實是tessract做的一層Python API封裝,是以它的核心是tesseract,是以,安裝tesserocr之前,要安裝tesseract。
windows下的安裝,先下載下傳tesseract,它提供了tesserocr的支援;
下載下傳之後是一個.exe檔案直接安裝就好;安裝時可以勾選Additional language data(download)選項來安裝OCR識别支援的語言包。
安裝完成後,在安裝tersserocr,
安裝指令:pip install tesserocr pillow
在安裝tesserocr時報錯了,沒辦法隻能自己找個wheel檔案下載下傳了。安裝成功,下載下傳成功的.whl檔案,這樣安裝:pip install E:\tesserocr-2.4.0-cp37-cp37m-win_amd64.whl 然後在安裝pip install pillow
安裝完後測試一下:識别一下這個位址的圖檔上得東西:https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png
将圖檔下載下傳到本地:
然後使用指令:
打開result.txt看看識别的情況
我們在用tesserocr試一試:
在python環境下