資訊時代的到來,帶給我們海量資訊的同時也給我們帶來很多有用的價值。如何在這些海量資訊池裡面找到自己需要的有價值的資訊就離不開爬蟲技術了,那麼在python下如果去部署安裝單線程爬蟲,下面的文章可以供大家參考。
Requests介紹與安裝
Windows環境下:pip install requests
Linux環境下:sudo pip install requests
第三方庫安裝技巧
少使用easy_install因為隻能安裝不能解除安裝
多用pip方式安裝
将下載下傳的字尾為whl的檔案改為zip, 解壓檔案,獲得requests檔案,拷貝到C槽的python/lib檔案夾中。
第一個網絡爬蟲
Requests擷取網頁源代碼
直接擷取源代碼
修改http頭擷取源代碼
爬取華科雲商首頁的源代碼
import requests
html = requests.get('http://jshk.com.cn/mb/bohao/')
print html.text
單線程爬蟲的基本原理:使用requests擷取網頁源代碼,再使用正規表達式比對出感興趣的内容。
向網頁提取資料Get與Post
Get是從伺服器上擷取資料
Post是向伺服器傳送資料
Get通過構造url中的參數來實作功能
分析目标網站
網站位址:https://www.crowdfunder.com/browse/deals
分析工具:Chrome-稽核元素-Network