python 爬蟲部落格園_python爬蟲（一）

從我接觸python爬蟲開始，斷斷續續的學習到現在将将入門，已經過去了一個多月了，發現爬蟲真的是一項浩瀚的工程，涉及的知識面非常廣。我在這裡主要是分享一下自己學的東西，同時做個總結。有寫錯或了解有誤的地方歡迎各位大神指正。

爬蟲的應用

你可以爬去想要的圖檔，爬取自己想看的視訊等等你想要爬取的資料，隻要你能通過浏覽器通路的資料都可以通過爬蟲擷取，這裡要有一個信念：隻要是網絡上有的就一定能爬，沒有爬不到的内容隻有想不到的内容。爬蟲往小的做，可以爬一些簡單的檔案，如爬豆瓣電影，往大的做，諸如百度搜尋，谷歌搜尋。

爬蟲到底是什麼

就像浏覽器一樣，我們通過浏覽器打開網頁，擷取網頁中我們想要的那部分資料。

浏覽器打開網頁的過程：

當你在浏覽器中輸入位址後，經過DNS伺服器(域名系統伺服器，用于解析請求網站的IP位址)找到伺服器主機，向伺服器發送一個請求，伺服器傳回一個響應給浏覽器結果，包括html,js,css等檔案内容，浏覽器解析出來最後呈現給使用者在浏覽器上看到的結果，即網站頁面。頁面由html(超文本标記語言)構成，爬蟲就是為了擷取這些内容，通過一定的方式分析和過濾html代碼，從中擷取我們想要資源(文本，圖檔，視訊.....)

浏覽器的請求

咱們先說說url，中文名統一資源定位符，用來定位網絡上各種資源的位置和獲得這些資源的方法。

url的組成：

url = 請求協定 + 域名 + 資源路徑 + 參數

請求協定：是指用什麼樣的方法來獲得這些資源，最常用的即http協定和https協定，其次為ftp協定。

域名：伺服器位址。

資源路徑：在伺服器的哪個位置，就和你在硬碟上存儲一個檔案，在c盤360檔案夾的那哪個位置。可有可無。

參數：如果檔案是分段存儲，指的是可能的檔案片段存儲位置。或為用戶端傳入伺服器的一些參數，可有可無。

在浏覽器頁面，右擊滑鼠選擇檢查，出現一個視窗。如圖：

python 爬蟲部落格園_python爬蟲（一）

下部為打開的調試工具，element就是頁面的元素，可以看作是頁面的html，我們就是從這裡提取一些資料的，比如可以用xpath-helper來檢視這些資料，在python中也有xpath方法。

Network是表示目前網絡傳輸的一些内容，可以實時看到浏覽器與伺服器的互動内容。上面這個圖打開的就是浏覽器發送請求并獲得響應的一個展示，Headers包括了請求頭，響應頭，傳輸檔案等，是http或https協定的一部分。

response其實就是浏覽器獲得的響應，基本上與elements相同。

python 爬蟲部落格園_python爬蟲（一）

python 爬蟲部落格園_python爬蟲（一）

繼續閱讀

python 爬蟲部落格園_詳解Python爬蟲爬取部落格園問題清單所有的問題

python 爬蟲 部落格園_python爬蟲（一）

繼續閱讀

python 爬蟲部落格園_python爬蟲（一）