天天看點

http請求頭資料介紹

Host: www.baidu.com
User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: zh-CN,en-US;q=0.7,en;q=0.3
Accept-Encoding: gzip, deflate, br
Referer: https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E5%BE%AE%E4%BF%A1%E7%BD%91%E9%A1%B5%E7%89%88&oq=idea&rsv_pq=df1d1d7900012726&rsv_t=e3eaqlL847Bxznq5p1%2BoCBx66We9aHN84KI5DPEfTfftmUIj1hWeStKJSKw&rqlang=cn&rsv_enter=0&inputT=4107&rsv_sug3=20&rsv_sug1=16&rsv_sug7=100&rsv_sug2=1&prefixsug=weixin&rsp=0&rsv_sug4=5137
Cookie: BAIDUID=CAEBA062EEDB0440ECE4BD322C75DD36:FG=1; BIDUPSID=CAEBA062EEDB0440ECE4BD322C75DD36; PSTM=1471327066; BD_UPN=133352; sug=3; sugstore=0; ORIGIN=2; bdime=0; pgv_pvi=6147141632; BD_CK_SAM=1; rsv_jmp_slow=1490604136390; BD_HOME=0; H_PS_PSSID=1464_21124_17001_21670_20930; PSINO=2; pgv_si=s4650173440; H_PS_645EC=7f23pbq7Of2TPUiudn7ywwrUThW7g2q13G6W1ZvYlZwjS9PBLiSuRMvUmDw; WWW_ST=1490614416114
Connection: keep-alive
            
Upgrade-Insecure-Requests: 1
      
Cache-Control: max-age=0 之前一直在搞爬蟲,但是對内部的實作機制一直沒有認真研究今天抽空看了下爬蟲的細節首先是網頁請求的内容,前人之述備矣但寫了才是算我的了解。這個請求是在火狐浏覽器裡面截取的。可以看到請求包括host:請求的網址。user-agnet:是使用者代聲明了浏覽器用于 HTTP 請求的使用者代理頭的值Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0 是火狐的設定Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/53.0.2785.143 Chrome/53.0.2785.143 Safari/537.36是chrome的設定. accept:浏覽器支援的 MIME 類型(MIME的英文全稱是 Multipurpose Internet Mail Extensions多功能 Internet 郵件擴充服務) text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8q 是權重系數,範圍 0 =< q <= 1,q 值越大,請求越傾向于獲得其“;”之前的類型表示的内容,若沒有指定 q 值,則預設為1,若被指派為0,則用于提醒伺服器哪些是浏覽器不接受的内容類型Accept-Language是希望收到語言編碼zh-CN,en-US;q=0.7,en;q=0.3中國大陸,美式英語各占0.7Accept-Encoding: gzip, deflate, br浏覽器支援的壓縮編碼是 gzip 和 deflate  deflate是同時使用了 LZ77 算法與哈夫曼編碼(Huffman Coding)的一個無損資料壓縮算法sdch是谷歌浏覽器使用的壓縮方法Referer代表了目前請求是從哪裡跳轉過來的cookie比較複雜是最長的請求connect:keep-alive是長時間保持連接配接,這樣有了通知能夠及時通知浏覽器,打開狀态能夠減少域名解析次數Upgrade-Insecure-Requests浏覽器自動更新請求cache-contral:max-age=0表示當通路此網頁後的5秒内再次通路不會去伺服器