全文簡介
本文是先采集拉勾網上面的資料,采集的是Python崗位的資料,然後用Python進行可視化。主要涉及的是爬蟲&資料可視化的知識。
爬蟲部分
先用Python來抓取拉勾網上面的資料,采用的是簡單好用的requests子產品。主要注意的地方是,拉勾網屬于動态網頁,是以會用到浏覽器的F12開發者工具進行抓包。抓包以後會發現,其實網頁是一個POST的形式,是以要送出資料,送出的資料如下圖:

真實網址是:
https://www.lagou.com/jobs/positionAjax.jsonneedAddtionalResult=false&isSchoolJob=0
在上圖也可以輕松發現:kd是查詢關鍵詞,pn是頁數,可以實作翻頁。
代碼實作
注意:抓取資料的時候不要爬取太快,除非你有其他的反爬措施,比如更換IP等,另外不需登入,我在代碼加入了time子產品,用于限制爬取速度。
資料可視化
下載下傳下來的資料長成這個樣子:
注意标題(也就是列明)是我自己添加的。
導入子產品并配置繪圖風格
注意:導入子產品的時候其他都容易解決,除了wordcloud這個子產品,這個子產品我建議大家手動安裝,如果pip安裝的話,會提示你缺少C++14.0之類的錯誤,導緻安裝不上。手動下載下傳whl檔案就可以順利安裝了。
資料預覽
read_csv路徑不要帶有中文
學曆要求
工作經驗
Python熱門崗位
工作地點
工作地理圖
正在學習Python爬蟲的朋友不妨嘗試下!