python解析庫的安裝1. lxml簡介和安裝2. Beautiful Soup簡介和安裝3. pyquery簡介和安裝4. tesserocr簡介和安裝

2023-04-04 05:25:27

python解析庫的安裝

1. lxml簡介和安裝
2. Beautiful Soup簡介和安裝
3. pyquery簡介和安裝
4. tesserocr簡介和安裝

當我們抓取網頁代碼後，下一步就從網頁中提取資訊，提取資訊的方式有多種多樣，可以使用正則來提取，但很繁瑣。是以我們要用強大的解析庫來操作：如lxml，Beautiful Soup，pyquery等；還有非常強大的解析方法：如XPath和CSS選擇器解析等。有了他們，我們就可以高效從網頁中提取有效資訊。

1. lxml簡介和安裝

lxml是python的一個解析庫，支援html和xml的解析庫，支援XPath解析方式，解析效率非常高。

1 windows下簡單粗暴安裝方法：pip install lxml，如果pip有問題，可以用wheel方式安裝，網上搜一個對應版本的lxml-xxx.whl包，然後用 pip install lxml-xxx.whl；

2. Beautiful Soup簡介和安裝

Beautiful Soup是python的一個解析庫，支援html和xml的解析庫，可以用它友善地從網頁中提取資料，它擁有強大的API和多樣的解析方式，

安裝方式：pip install beautifulsoup4 或者使用wheel方式安裝

3. pyquery簡介和安裝

pyquery同樣是一個強大的網頁解析工具，它提供了和jQuery類似的文法來解析HTML文檔，支援CSS選擇器，使用非常友善。

安裝方式：pip install pyquery 或者使用wheel方式安裝

4. tesserocr簡介和安裝

在爬取過程中，難免會遇到各種各樣的驗證碼，而大多數驗證碼還是圖形驗證碼，這時可以用OCR識别（OCR:Optical Character Recognition，光學字元識别，通過掃描字元，将形狀翻譯成電子文本的過程）

tesserocr是python的一個OCR識别庫，但其實是tessract做的一層Python API封裝，是以它的核心是tesseract，是以，安裝tesserocr之前，要安裝tesseract。

windows下的安裝，先下載下傳tesseract，它提供了tesserocr的支援；

下載下傳之後是一個.exe檔案直接安裝就好；安裝時可以勾選Additional language data（download）選項來安裝OCR識别支援的語言包。

安裝完成後，在安裝tersserocr，

安裝指令：pip install tesserocr pillow

在安裝tesserocr時報錯了，沒辦法隻能自己找個wheel檔案下載下傳了。安裝成功，下載下傳成功的.whl檔案，這樣安裝：pip install E:\tesserocr-2.4.0-cp37-cp37m-win_amd64.whl 然後在安裝pip install pillow

安裝完後測試一下：識别一下這個位址的圖檔上得東西：https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png

python解析庫的安裝1. lxml簡介和安裝2. Beautiful Soup簡介和安裝3. pyquery簡介和安裝4. tesserocr簡介和安裝

将圖檔下載下傳到本地：

然後使用指令：

python解析庫的安裝1. lxml簡介和安裝2. Beautiful Soup簡介和安裝3. pyquery簡介和安裝4. tesserocr簡介和安裝

打開result.txt看看識别的情況

python解析庫的安裝1. lxml簡介和安裝2. Beautiful Soup簡介和安裝3. pyquery簡介和安裝4. tesserocr簡介和安裝

我們在用tesserocr試一試：

在python環境下

python解析庫的安裝1. lxml簡介和安裝2. Beautiful Soup簡介和安裝3. pyquery簡介和安裝4. tesserocr簡介和安裝

python解析庫的安裝1. lxml簡介和安裝2. Beautiful Soup簡介和安裝3. pyquery簡介和安裝4. tesserocr簡介和安裝

python解析庫的安裝

1. lxml簡介和安裝

2. Beautiful Soup簡介和安裝

3. pyquery簡介和安裝

4. tesserocr簡介和安裝

繼續閱讀

快速入門 Python 爬蟲常用解析庫(xpath、bs4)

python爬蟲之lxml

使用scrapy爬蟲架構批量下載下傳圖檔

ubuntu16.4安裝scrapy遇到的問題記錄

(究極01)Scrapy練習第三輯-貫穿GitHub

selenium+pyquery爬取京東商品

Ibelievethere'saheroinallofus.#spiderman#蜘蛛俠#荷蘭弟#湯姆赫蘭德

使用selenium和pyquery來爬取淘寶ipad商品資訊使用selenium爬取淘寶ipad商品資訊

Spider和CrawlSpiderSpider和CrawlSpider

python爬蟲學習：爬取CSDN 采用requests + lxml 進行xpath解析 (二)

Python爬蟲中XML、XPath、lxml的使用

python爬蟲之Xpath和lxml學習筆記03

Python爬蟲（四）lxml、xpath安裝子產品導入查找節點屬性查找 @ 符号使用謂語選取未知節點擷取文本和屬性

爬蟲（三）lxml+requests（豆瓣Top250電影）

python爬蟲實戰：利用beautiful soup爬取貓眼電影TOP100榜單内容-2

網絡蜘蛛Spider的邏輯Logic（二）