天天看点

Python拉勾网数据采集与可视化

全文简介

本文是先采集拉勾网上面的数据,采集的是Python岗位的数据,然后用Python进行可视化。主要涉及的是爬虫&数据可视化的知识。

爬虫部分

先用Python来抓取拉勾网上面的数据,采用的是简单好用的requests模块。主要注意的地方是,拉勾网属于动态网页,所以会用到浏览器的F12开发者工具进行抓包。抓包以后会发现,其实网页是一个POST的形式,所以要提交数据,提交的数据如下图:

Python拉勾网数据采集与可视化

真实网址是:

https://www.lagou.com/jobs/positionAjax.jsonneedAddtionalResult=false&isSchoolJob=0

在上图也可以轻松发现:kd是查询关键词,pn是页数,可以实现翻页。

代码实现

注意:抓取数据的时候不要爬取太快,除非你有其他的反爬措施,比如更换IP等,另外不需登录,我在代码加入了time模块,用于限制爬取速度。

数据可视化

下载下来的数据长成这个样子:

Python拉勾网数据采集与可视化

注意标题(也就是列明)是我自己添加的。

导入模块并配置绘图风格

注意:导入模块的时候其他都容易解决,除了wordcloud这个模块,这个模块我建议大家手动安装,如果pip安装的话,会提示你缺少C++14.0之类的错误,导致安装不上。手动下载whl文件就可以顺利安装了。

数据预览

Python拉勾网数据采集与可视化

read_csv路径不要带有中文

Python拉勾网数据采集与可视化

学历要求

Python拉勾网数据采集与可视化

工作经验

Python拉勾网数据采集与可视化

Python热门岗位

Python拉勾网数据采集与可视化

工作地点

Python拉勾网数据采集与可视化

工作地理图

Python拉勾网数据采集与可视化

正在学习Python爬虫的朋友不妨尝试下!