Python 爬虫从入门到进阶之路（十四）

之前的文章我们已经可以根据 re 模块，Xpath 模块和 BeautifulSoup4 模块来爬取网站上我们想要的数据并且存储在本地，但是我们并没有对存储数据的格式有要求，本章我们就来看数据的存储格式 JSON 及 Python 中的 json 模块。

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。

JSON和XML的比较可谓不相上下。

Python 中自带了JSON模块，直接

import json

就可以使用了。

官方文档：http://docs.python.org/library/json.html

Json在线解析网站：http://www.json.cn/#

json简单说就是javascript中的对象和数组，所以这两种结构就是对象和数组两种结构，通过这两种结构可以表示各种复杂的结构

对象：对象在js中表示为 { } 括起来的内容，数据结构为 { key：value, key：value, ... } 的键值对的结构，在面向对象的语言中，key为对象的属性，value为对应的属性值，所以很容易理解，取值方法为对象.key 获取属性值，这个属性值的类型可以是数字、字符串、数组、对象这几种。

数组：数组在js中是中括号 [ ] 括起来的内容，数据结构为 ["Python", "javascript", "C++", ...] ，取值方式和所有语言中一样，使用索引获取，字段值的类型可以是数字、字符串、数组、对象几种。

Python中 json 模块提供了四个功能：

dumps

、

dump

、

loads

、

load

，用于字符串和 python数据类型间进行转换。

1. json.loads()

把Json格式字符串解码转换成Python对象从json到python的类型转化对照如下：

1 import json
2 
3 strList = '[1, 2, 3, 4]'
4 strDict = '{"city": "北京", "name": "大猫"}'
5 
6 print(json.loads(strList))  # [1, 2, 3, 4]
7 print(json.loads(strDict))  # {'city': '北京', 'name': '张三'}

2. json.dumps()

实现 python 类型转化为 json 字符串，返回一个str对象把一个 Python 对象编码转换成 Json 字符串

从 python 原始类型向 json 类型的转化对照如下：

1 import json
2 
3 listStr = [1, 2, 3, 4]
4 tupleStr = (1, 2, 3, 4)
5 dictStr = {"city": "北京", "name": "张三"}
6 
7 print(json.dumps(listStr))  # '[1, 2, 3, 4]'
8 print(json.dumps(tupleStr))  # '[1, 2, 3, 4]'
9 print(json.dumps(dictStr))  # '{"city": "\u5317\u4eac", "name": "\u5f20\u4e09"}'

3. json.dump()

将Python内置类型序列化为json对象后写入文件

1 import json
2 
3 listStr = [{"city": "北京"}, {"name": "张三"}]
4 json.dump(listStr, open("listStr.json", "w"))
5 
6 dictStr = {"city": "北京", "name": "李四"}
7 json.dump(dictStr, open("dictStr.json", "w"), ensure_ascii=False)  # 添加参数 ensure_ascii=False 禁用ascii编码，按utf-8编码

输出结果：

4. json.load()

读取文件中json形式的字符串元素转化成python类型

1 import json
2 
3 strList = json.load(open("listStr.json"))
4 print(strList)  # [{'city': '北京'}, {'name': '张三'}]
5 
6 strDict = json.load(open("dictStr.json"))
7 print(strDict)  # {'city': '北京', 'name': '李四'}

JsonPath

JsonPath 是一种信息抽取类库，是从JSON文档中抽取指定信息的工具，提供多种语言实现版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 对于 JSON 来说，相当于 XPATH 对于 XML。

下载地址：https://pypi.python.org/pypi/jsonpath

安装方法：点击
Download URL 链接下载jsonpath，解压之后执行 python setup.py install 官方文档：http://goessner.net/articles/JsonPath

JsonPath与XPath语法对比：

Json结构清晰，可读性高，复杂度低，非常容易匹配，下表中对应了XPath的用法。

XPath	JSONPath	描述
`/`	`$`	根节点
`.`	`@`	现行节点
`/`	`.` or `[]`	取子节点
`..`	n/a	取父节点，Jsonpath未支持
`//`	`..`	就是不管位置，选择所有符合条件的条件
`*`	`*`	匹配所有元素节点
`@`	n/a	根据属性访问，Json不支持，因为Json是个Key-value递归结构，不需要。
`[]`	`[]`	迭代器标示（可以在里边做简单的迭代操作，如数组下标，根据内容选值等）
\|	`[,]`	支持迭代器中做多选。
`[]`	`?()`	支持过滤操作.
n/a	`()`	支持表达式计算
`()`	n/a	分组，JsonPath不支持

示例：

我们以拉勾网城市JSON文件 https://www.lagou.com/lbs/getAllCitySearchLabels.json 为例，获取所有城市。

1 import urllib.request
 2 import json
 3 import jsonpath
 4 import ssl
 5 
 6 # 取消代理验证
 7 ssl._create_default_https_context = ssl._create_unverified_context
 8 
 9 url = 'https://www.lagou.com/lbs/getAllCitySearchLabels.json'
10 headers = {
11     "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}
12 # 发送请求
13 request = urllib.request.Request(url, headers=headers)
14 response = urllib.request.urlopen(request)
15 html = response.read().decode("utf-8")
16 # 把json格式字符串转换成python对象
17 jsonobj = json.loads(html)
18 # 从根节点开始，匹配name节点
19 citylist = jsonpath.jsonpath(jsonobj, '$..name')
20 
21 fp = open('city.json', 'w')
22 content = json.dumps(citylist, ensure_ascii=False)
23 fp.write(content)
24 fp.close()

程序启动后会在本地生成一个 city.json 的文件，结果如下：

Python 爬虫从入门到进阶之路（十四）

1. json.loads()

2. json.dumps()

3. json.dump()

4. json.load()

JsonPath

JsonPath与XPath语法对比：

示例：

继续阅读

Python 爬虫从入门到进阶之路（六）

Python 爬虫从入门到进阶之路（七）

Python 爬虫从入门到进阶之路（八）

Python 爬虫从入门到进阶之路（九）

Python 爬虫从入门到进阶之路（十）

Python 爬虫从入门到进阶之路（十一）

Python 爬虫从入门到进阶之路（十二）

Python 3网络爬虫开发实战》中文PDF+源代码+书籍软件包

Python 3网络爬虫开发实战中文书籍软件包(原创)

Python 爬虫从入门到进阶之路（十三）

Python 爬虫从入门到进阶之路（十五）

Python 爬虫从入门到进阶之路（十六）

Python 爬虫从入门到进阶之路（十七）

《Python 3网络爬虫开发实战中文》超清PDF+源代码+书籍软件包

Python 爬虫从入门到进阶之路（十八）