天天看點

python單線程爬蟲安裝與調試

資訊時代的到來,帶給我們海量資訊的同時也給我們帶來很多有用的價值。如何在這些海量資訊池裡面找到自己需要的有價值的資訊就離不開爬蟲技術了,那麼在python下如果去部署安裝單線程爬蟲,下面的文章可以供大家參考。

Requests介紹與安裝

Windows環境下:pip install requests  

Linux環境下:sudo pip install requests  

第三方庫安裝技巧

少使用easy_install因為隻能安裝不能解除安裝  

多用pip方式安裝  

将下載下傳的字尾為whl的檔案改為zip, 解壓檔案,獲得requests檔案,拷貝到C槽的python/lib檔案夾中。  

第一個網絡爬蟲

Requests擷取網頁源代碼  

直接擷取源代碼    

修改http頭擷取源代碼  

爬取華科雲商首頁的源代碼

import requests
html = requests.get('http://jshk.com.cn/mb/bohao/')
print html.text      

單線程爬蟲的基本原理:使用requests擷取網頁源代碼,再使用正規表達式比對出感興趣的内容。

向網頁提取資料Get與Post

Get是從伺服器上擷取資料

Post是向伺服器傳送資料

Get通過構造url中的參數來實作功能

分析目标網站

網站位址:https://www.crowdfunder.com/browse/deals

分析工具:Chrome-稽核元素-Network

繼續閱讀