文章目錄
- 一、網頁分析
- 二、代碼實作與步驟
- 三、結果分析
一、網頁分析
爬取這個網頁,将整個網頁的html源碼儲存到本地
二、代碼實作與步驟
import requests
#1、确定url
base_url = 'https://www.baidu.com/'
#2、準備參數
#params字典
#請求頭字典
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
}
#3、發送請求擷取響應
#問題:擷取到的響應内容不正确。
#你發送的請求就是有問題的。
#用戶端請求:請求行,請求頭,空行,請求資料。
response = requests.get(base_url,headers = headers)
print(response.content.decode('utf-8'))
三、結果分析
能夠得到與百度首頁一樣的源碼
如果不适用headers,則擷取的内容錯誤
header
user-agent 用戶端辨別,僞裝成浏覽器