天天看點

Python拉勾網資料采集與可視化

全文簡介

本文是先采集拉勾網上面的資料,采集的是Python崗位的資料,然後用Python進行可視化。主要涉及的是爬蟲&資料可視化的知識。

爬蟲部分

先用Python來抓取拉勾網上面的資料,采用的是簡單好用的requests子產品。主要注意的地方是,拉勾網屬于動态網頁,是以會用到浏覽器的F12開發者工具進行抓包。抓包以後會發現,其實網頁是一個POST的形式,是以要送出資料,送出的資料如下圖:

Python拉勾網資料采集與可視化

真實網址是:

https://www.lagou.com/jobs/positionAjax.jsonneedAddtionalResult=false&isSchoolJob=0

在上圖也可以輕松發現:kd是查詢關鍵詞,pn是頁數,可以實作翻頁。

代碼實作

注意:抓取資料的時候不要爬取太快,除非你有其他的反爬措施,比如更換IP等,另外不需登入,我在代碼加入了time子產品,用于限制爬取速度。

資料可視化

下載下傳下來的資料長成這個樣子:

Python拉勾網資料采集與可視化

注意标題(也就是列明)是我自己添加的。

導入子產品并配置繪圖風格

注意:導入子產品的時候其他都容易解決,除了wordcloud這個子產品,這個子產品我建議大家手動安裝,如果pip安裝的話,會提示你缺少C++14.0之類的錯誤,導緻安裝不上。手動下載下傳whl檔案就可以順利安裝了。

資料預覽

Python拉勾網資料采集與可視化

read_csv路徑不要帶有中文

Python拉勾網資料采集與可視化

學曆要求

Python拉勾網資料采集與可視化

工作經驗

Python拉勾網資料采集與可視化

Python熱門崗位

Python拉勾網資料采集與可視化

工作地點

Python拉勾網資料采集與可視化

工作地理圖

Python拉勾網資料采集與可視化

正在學習Python爬蟲的朋友不妨嘗試下!