天天看點

Python 爬蟲初級

安裝庫

安裝requests庫

pip install  requests -i https://pypi.douban.com/simple
           

關鍵解釋

爬蟲就是根據網站留出的接口給網站發送請求擷取網站相關資料,給網站一般發送請求有兩種方式:post、get。所謂的get方法,便是利用程式使用HTTP協定中的GET請求方式對目标網站發起請求,post請求方式的使用和get方式并沒有很大的差別,本質的差別在于它傳遞參數的方式并不像get方式一樣,通過在url中拼接字段來發送給伺服器,他采取了一種相較之下更為安全的操作方式。

給網站發送的請求體,一般有四個部分組成:url、headers、data、json。根據不同的網站接口,有的網站隻有前面的部分。

  1. url 目标網址
  2. headers 請求體的頭部
  3. data 請求體内容
  4. json 一般在AppKey中加密時候使用

requests庫内關鍵函數說明:

requests.get(url=start_url, headers=headers)  #直接傳回response,可通過response.text檢視結果
requests.post(url=url, data=data, headers=headers, json={“auction”=1})
           

例子

裝好環境之後,可以用下列例子測試相關庫是否裝好了!另外推薦網站:http://www.imooc.com/article/48845?block_id=tuijian_wz ,本人主要就是根據這個網站内容學習的。

import requests

start_url = 'https://www.baidu.com'
response = requests.get(url=start_url)
print(response)    # 傳回值:<Response [200]>