天天看點

Python爬蟲學習(1)

為了完成畢業設計,從Python零基礎開始學習爬蟲技術。

1.Requests庫

功能:用于網頁請求

網頁請求方式:GET方法(常用)與POST方法

使用GET方式抓取網頁源碼資料:

import requests        				#導入requests包
url = 'http://www.baidu.com/'		#将目标網頁指派給一個變量
strhtml = requests.get(url)        	#調用requests庫的Get方法擷取網頁資料,并将其指派給變量
print(strhtml.text)					#列印網頁的文本資料
           

2.BeautifulSoup庫

功能:從網頁中抓取資料

常見方法:BeautifulSoup()、soup.select()、soup.prettify()等

簡單示例:

import requests        							#導入requests包
from bs4 import    BeautifulSoup				#導入bs4中的BeautifulSoup包
url='http://www.baidu.com/'						
strhtml=requests.get(url)				
soup=BeautifulSoup(strhtml.text,'lxml')			#指定lxml解析器進行解析
print(soup)										#列印結果
           

2.1 BeautifulSoup()——解析文檔

Beautiful Soup 選擇最合适的解析器來解析文檔,解析後便将複雜的 HTML 文檔轉換成樹形結構,并且每個節點都是 Python 對象。

此處指定 lxml 解析器進行解析,将解析後的文檔存儲到建立的變量 soup 中。