Boss直聘Python爬虫实战

2023-08-07 21:46:35

准备工作

新建项目-新建PythonFile
安装爬虫模块

Boss直聘Python爬虫实战
1

pip install requests
requests的常用函数
- request.get()，对应http协议的get请求，也就是把网页下载下来。
- request.post()，对应Http协议的post请求，就是把数据上传到网页服务器。
观察boss直聘的url。
1

https://www.zhipin.com/c101250100-p110101/
- 通过观察发现，后面应该是城市代码和职位代码
- 通过检查-network发现，城市代码应该是储存在city.json里面
- 职位代码应该是储存在position.json里面

Boss直聘Python爬虫实战

通过观察：city.json的url为

`1`	`https://www.zhipin.com/wapi/zpCommon/data/city.json`

postion.json的url为

`1`	`https://www.zhipin.com/wapi/zpCommon/data/position.json`

Boss直聘Python爬虫实战

爬取城市代码

测试连接

import requests
# requests-->请求
url = 'https://www.zhipin.com/wapi/zpCommon/data/city.json'  # boss直聘城市链接
response = requests.get(url)  
print(response)  # 打印响应

返回值：

`1`	`<Response [200]>`

200：代表返回成功

404：网络连接失败

500：服务器奔溃

加入浏览器伪装头’user-agent’，防止被服务器发现你是爬虫

`1`	`headers = {'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'}`

第一次打印

import requests
from pprint import pprint
url = 'https://www.zhipin.com/wapi/zpCommon/data/city.json'  # boss直聘城市代码
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) \
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'}
response = requests.get(url, headers=headers)
data = response.json()  # 从返回对象中提取json
pprint(data)

结果如下：

Boss直聘Python爬虫实战

根据上图观察，返回的json可以当成是一个多层字典。

数据均在

zpData\cityList

下，于是对zpData进行第一次解包。

Boss直聘Python爬虫实战

对cityList进行第二次解包。

import requests
from pprint import pprint
url = 'https://www.zhipin.com/wapi/zpCommon/data/city.json'  # boss直聘城市代码
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) \
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'}
response = requests.get(url, headers=headers)
data = response.json()  # 从返回对象中提取json
data1 = data['zpData']['cityList']
# pprint(data1)
for ii in data1:
    province = ii['name']  # 省名
    province_code = ii['code']  # 省对应的代码
    city_list = ii['subLevelModelList']
    for ci in city_list:
      city = ci['name']  # 城市名
        city_code = ci['code']  # 城市代码
      print(province, '\t', province_code, '\t', city, '\t', city_code)

Boss直聘Python爬虫实战

省和城市代码就爬取完毕了，直接粘贴到excel就可以。至于如何直接导出excel，后面再说。

Boss直聘Python爬虫实战

准备工作

爬取城市代码

继续阅读

TestLink导出用例转换工具(XML2Excel)

JVM内存管理、直接内存和垃圾回收

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

DataFrame操作——数据读取

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入