為了完成畢業設計,從Python零基礎開始學習爬蟲技術。
1.Requests庫
功能:用于網頁請求
網頁請求方式:GET方法(常用)與POST方法
使用GET方式抓取網頁源碼資料:
import requests #導入requests包
url = 'http://www.baidu.com/' #将目标網頁指派給一個變量
strhtml = requests.get(url) #調用requests庫的Get方法擷取網頁資料,并将其指派給變量
print(strhtml.text) #列印網頁的文本資料
2.BeautifulSoup庫
功能:從網頁中抓取資料
常見方法:BeautifulSoup()、soup.select()、soup.prettify()等
簡單示例:
import requests #導入requests包
from bs4 import BeautifulSoup #導入bs4中的BeautifulSoup包
url='http://www.baidu.com/'
strhtml=requests.get(url)
soup=BeautifulSoup(strhtml.text,'lxml') #指定lxml解析器進行解析
print(soup) #列印結果
2.1 BeautifulSoup()——解析文檔
Beautiful Soup 選擇最合适的解析器來解析文檔,解析後便将複雜的 HTML 文檔轉換成樹形結構,并且每個節點都是 Python 對象。
此處指定 lxml 解析器進行解析,将解析後的文檔存儲到建立的變量 soup 中。