天天看點

【爬取百度首頁】-将整個html源碼儲存-headers使用一、網頁分析二、代碼實作與步驟三、結果分析

文章目錄

  • 一、網頁分析
  • 二、代碼實作與步驟
  • 三、結果分析

一、網頁分析

爬取這個網頁,将整個網頁的html源碼儲存到本地

【爬取百度首頁】-将整個html源碼儲存-headers使用一、網頁分析二、代碼實作與步驟三、結果分析

二、代碼實作與步驟

import requests
#1、确定url
base_url = 'https://www.baidu.com/'
#2、準備參數
#params字典
#請求頭字典
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
}
#3、發送請求擷取響應
#問題:擷取到的響應内容不正确。
#你發送的請求就是有問題的。
#用戶端請求:請求行,請求頭,空行,請求資料。
response = requests.get(base_url,headers = headers)
print(response.content.decode('utf-8'))
           

三、結果分析

能夠得到與百度首頁一樣的源碼

【爬取百度首頁】-将整個html源碼儲存-headers使用一、網頁分析二、代碼實作與步驟三、結果分析

如果不适用headers,則擷取的内容錯誤

header

user-agent 用戶端辨別,僞裝成浏覽器