15天學會爬蟲第一天爬蟲

2023-08-06 16:47:16

爬蟲

第一天

1. 爬蟲的用途

1.爬取資料用做網站展示

2.爬取資料用來為大資料或者人工智能服務

2. 什麼是爬蟲?

模拟浏覽器發送請求,擷取相應的資料

3. 爬蟲的分類

3.1 通用爬蟲

搜尋引擎的爬蟲,爬取整個網際網路的資料

3.2 聚焦爬蟲

針對特定網站專門寫的抓取資料的程式

聚焦爬蟲的流程

準備url清單
拿到一個url發起請求,擷取響應
響應提取
- 提取的是資料,資料儲存
- 提取的是URL,放入URL清單

rootbots協定: 網站規定搜尋殷勤可以爬取的内容範圍,隻是道德限制

4. 爬蟲程式的響應

爬蟲程式的響應以url對應的響應為準,不能以elements為準

5. 重要的請求頭

Cookie: 儲存使用者登入的憑證,如果要反問登入後的頁面去擷取資料庫,必須攜帶Cookie
User—Agent: 表示請求者的身份,反爬的必要手段,每次請求都必須攜帶
Referer: 頁面來源處

6. get和post請求的差別

最直覺的就是語義上的差別,get用于擷取資料,post用于送出資料.
get參數有長度限制(受限于URL長度,具體的數值取決于浏覽器和伺服器的限制),而post無限制
get請求,請求的資料會附加在url之後,以 ? 分割URL和傳輸資料,多個參數用 & 連接配接,而post請求會把請求的資料放置在HTTP 請求體中.
GET的語義是請求擷取指定的資源。GET方法是安全、幂等、可緩存的（除非有 Cache-ControlHeader的限制）,GET方法的封包主體沒有任何語義。POST的語義是根據請求負荷（封包主體）對指定的資源做出處理，具體的處理方式視資源類型而不同。POST不安全，不幂等，（大部分實作）不可緩存。為了針對其不可緩存性，有一系列的方法來進行優化，以後有機會再研究（FLAG已經立起）。還是舉一個通俗栗子吧，在微網誌這個場景裡，GET的語義會被用在「看看我的Timeline上最新的20條微網誌」這樣的場景，而POST的語義會被用在「發微網誌、評論、點贊」這樣的場景中。(該條轉載自5的部落格)
更多資料，請檢視post請求和get請求的差別

15天學會爬蟲第一天爬蟲

爬蟲

第一天

1. 爬蟲的用途

2. 什麼是爬蟲?

3. 爬蟲的分類

3.1 通用爬蟲

3.2 聚焦爬蟲

4. 爬蟲程式的響應

5. 重要的請求頭

6. get和post請求的差別

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

sort()函數到底是怎樣進行數字排序的

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

15天學會爬蟲 第一天爬蟲

爬蟲

第一天

1. 爬蟲的用途

2. 什麼是爬蟲?

3. 爬蟲的分類

3.1 通用爬蟲

3.2 聚焦爬蟲

4. 爬蟲程式的響應

5. 重要的請求頭

6. get和post請求的差別

繼續閱讀

15天學會爬蟲第一天爬蟲