Py之Beautiful Soup 4.2.0：Beautiful Soup 4.2.0的簡介、安裝、使用方法詳細攻略

2021-10-26 23:50:00

Beautiful Soup 4.2.0的簡介

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠通過你喜歡的轉換器實作慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間。

如果你用的是新版的Debain或ubuntu,那麼可以通過系統的軟體包管理來安裝:

$ apt-get install Python-bs4

Beautiful Soup 4 通過PyPi釋出,是以如果你無法使用系統包管理安裝,那麼也可以通過 easy_install 或 pip 來安裝.包的名字是 beautifulsoup4 ,這個包相容Python2和Python3.

$ easy_install beautifulsoup4

$ pip install beautifulsoup4

1、将一段文檔傳入BeautifulSoup 的構造方法,就能得到一個文檔的對象, 可以傳入一段字元串或一個檔案句柄.

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

首先,文檔被轉換成Unicode,并且HTML的執行個體都被轉換成Unicode編碼

BeautifulSoup("Sacré bleu!")

<html><head></head><body>Sacré bleu!</body></html>

然後,Beautiful Soup選擇最合适的解析器來解析這段文檔,如果手動指定解析器那麼Beautiful Soup會選擇指定的解析器來解析文檔.(參考解析成XML ).

2、BeautifulSoup包功能比正規表達式很多，且要簡潔明白一些。

Beautiful Soup将複雜HTML文檔轉換成一個複雜的樹形結構,每個節點都是Python對象,所有對象可以歸納為4種:　Tag、NavigableString、BeautifulSoup、Comment 。

Tag: 即我們在寫網頁時所使用的标簽（如<a>超連結标簽）

NavigableString：簡單的說就是一種可以周遊的字元串

這兩個庫主要是解析html/xml文檔，BeautifulSoup 用來解析 HTML 比較簡單，API非常人性化，支援CSS選擇器、 Python标準庫中的HTML解析器，也支援 lxml 的 XML解析器。

Beautiful Sou和Lxml是兩個非常流行的python子產品，他們常被用來對抓取到的網頁進行解析，以便進一步抓取的進行。