天天看點

python 爬蟲 部落格園_python爬蟲(一)

從我接觸python爬蟲開始,斷斷續續的學習到現在将将入門,已經過去了一個多月了,發現爬蟲真的是一項浩瀚的工程,涉及的知識面非常廣。我在這裡主要是分享一下自己學的東西,同時做個總結。有寫錯或了解有誤的地方歡迎各位大神指正。

爬蟲的應用

你可以爬去想要的圖檔,爬取自己想看的視訊等等你想要爬取的資料,隻要你能通過浏覽器通路的資料都可以通過爬蟲擷取,這裡要有一個信念:隻要是網絡上有的就一定能爬,沒有爬不到的内容隻有想不到的内容。爬蟲往小的做,可以爬一些簡單的檔案,如爬豆瓣電影,往大的做,諸如百度搜尋,谷歌搜尋。

爬蟲到底是什麼

就像浏覽器一樣,我們通過浏覽器打開網頁,擷取網頁中我們想要的那部分資料。

浏覽器打開網頁的過程:

當你在浏覽器中輸入位址後,經過DNS伺服器(域名系統伺服器,用于解析請求網站的IP位址)找到伺服器主機,向伺服器發送一個請求,伺服器傳回一個響應給浏覽器結果,包括html,js,css等檔案内容,浏覽器解析出來最後呈現給使用者在浏覽器上看到的結果,即網站頁面。頁面由html(超文本标記語言)構成,爬蟲就是為了擷取這些内容,通過一定的方式分析和過濾html代碼,從中擷取我們想要資源(文本,圖檔,視訊.....)

浏覽器的請求

咱們先說說url,中文名統一資源定位符,用來定位網絡上各種資源的位置和獲得這些資源的方法。

url的組成:

url = 請求協定 + 域名 + 資源路徑 + 參數

請求協定:是指用什麼樣的方法來獲得這些資源,最常用的即http協定和https協定,其次為ftp協定。

域名:伺服器位址。

資源路徑:在伺服器的哪個位置,就和你在硬碟上存儲一個檔案,在c盤360檔案夾的那哪個位置。可有可無。

參數:如果檔案是分段存儲,指的是可能的檔案片段存儲位置。或為用戶端傳入伺服器的一些參數,可有可無。

在浏覽器頁面,右擊滑鼠選擇檢查,出現一個視窗。如圖:

python 爬蟲 部落格園_python爬蟲(一)

下部為打開的調試工具,element就是頁面的元素,可以看作是頁面的html,我們就是從這裡提取一些資料的,比如可以用xpath-helper來檢視這些資料,在python中也有xpath方法。

Network是表示目前網絡傳輸的一些内容,可以實時看到浏覽器與伺服器的互動内容。上面這個圖打開的就是浏覽器發送請求并獲得響應的一個展示,Headers包括了請求頭,響應頭,傳輸檔案等,是http或https協定的一部分。

response其實就是浏覽器獲得的響應,基本上與elements相同。

python 爬蟲 部落格園_python爬蟲(一)
python 爬蟲 部落格園_python爬蟲(一)
python 爬蟲 部落格園_python爬蟲(一)