Python 爬蟲從入門到進階之路（十四）

之前的文章我們已經可以根據 re 子產品，Xpath 子產品和 BeautifulSoup4 子產品來爬取網站上我們想要的資料并且存儲在本地，但是我們并沒有對存儲資料的格式有要求，本章我們就來看資料的存儲格式 JSON 及 Python 中的 json 子產品。

JSON(JavaScript Object Notation) 是一種輕量級的資料交換格式，它使得人們很容易的進行閱讀和編寫。同時也友善了機器進行解析和生成。适用于進行資料互動的場景，比如網站前台與背景之間的資料互動。

JSON和XML的比較可謂不相上下。

Python 中自帶了JSON子產品，直接

import json

就可以使用了。

官方文檔：http://docs.python.org/library/json.html

Json線上解析網站：http://www.json.cn/#

json簡單說就是javascript中的對象和數組，是以這兩種結構就是對象和數組兩種結構，通過這兩種結構可以表示各種複雜的結構

對象：對象在js中表示為 { } 括起來的内容，資料結構為 { key：value, key：value, ... } 的鍵值對的結構，在面向對象的語言中，key為對象的屬性，value為對應的屬性值，是以很容易了解，取值方法為對象.key 擷取屬性值，這個屬性值的類型可以是數字、字元串、數組、對象這幾種。

數組：數組在js中是中括号 [ ] 括起來的内容，資料結構為 ["Python", "javascript", "C++", ...] ，取值方式和所有語言中一樣，使用索引擷取，字段值的類型可以是數字、字元串、數組、對象幾種。

Python中 json 子產品提供了四個功能：

dumps

、

dump

、

loads

、

load

，用于字元串和 python資料類型間進行轉換。

1. json.loads()

把Json格式字元串解碼轉換成Python對象從json到python的類型轉化對照如下：

1 import json
2 
3 strList = '[1, 2, 3, 4]'
4 strDict = '{"city": "北京", "name": "大貓"}'
5 
6 print(json.loads(strList))  # [1, 2, 3, 4]
7 print(json.loads(strDict))  # {'city': '北京', 'name': '張三'}

2. json.dumps()

實作 python 類型轉化為 json 字元串，傳回一個str對象把一個 Python 對象編碼轉換成 Json 字元串

從 python 原始類型向 json 類型的轉化對照如下：

1 import json
2 
3 listStr = [1, 2, 3, 4]
4 tupleStr = (1, 2, 3, 4)
5 dictStr = {"city": "北京", "name": "張三"}
6 
7 print(json.dumps(listStr))  # '[1, 2, 3, 4]'
8 print(json.dumps(tupleStr))  # '[1, 2, 3, 4]'
9 print(json.dumps(dictStr))  # '{"city": "\u5317\u4eac", "name": "\u5f20\u4e09"}'

3. json.dump()

将Python内置類型序列化為json對象後寫入檔案

1 import json
2 
3 listStr = [{"city": "北京"}, {"name": "張三"}]
4 json.dump(listStr, open("listStr.json", "w"))
5 
6 dictStr = {"city": "北京", "name": "李四"}
7 json.dump(dictStr, open("dictStr.json", "w"), ensure_ascii=False)  # 添加參數 ensure_ascii=False 禁用ascii編碼，按utf-8編碼

輸出結果：

4. json.load()

讀取檔案中json形式的字元串元素轉化成python類型

1 import json
2 
3 strList = json.load(open("listStr.json"))
4 print(strList)  # [{'city': '北京'}, {'name': '張三'}]
5 
6 strDict = json.load(open("dictStr.json"))
7 print(strDict)  # {'city': '北京', 'name': '李四'}

JsonPath

JsonPath 是一種資訊抽取類庫，是從JSON文檔中抽取指定資訊的工具，提供多種語言實作版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 對于 JSON 來說，相當于 XPATH 對于 XML。

下載下傳位址：https://pypi.python.org/pypi/jsonpath

安裝方法：點選
Download URL 連結下載下傳jsonpath，解壓之後執行 python setup.py install 官方文檔：http://goessner.net/articles/JsonPath

JsonPath與XPath文法對比：

Json結構清晰，可讀性高，複雜度低，非常容易比對，下表中對應了XPath的用法。

XPath	JSONPath	描述
`/`	`$`	根節點
`.`	`@`	現行節點
`/`	`.` or `[]`	取子節點
`..`	n/a	取父節點，Jsonpath未支援
`//`	`..`	就是不管位置，選擇所有符合條件的條件
`*`	`*`	比對所有元素節點
`@`	n/a	根據屬性通路，Json不支援，因為Json是個Key-value遞歸結構，不需要。
`[]`	`[]`	疊代器标示（可以在裡邊做簡單的疊代操作，如數組下标，根據内容選值等）
\|	`[,]`	支援疊代器中做多選。
`[]`	`?()`	支援過濾操作.
n/a	`()`	支援表達式計算
`()`	n/a	分組，JsonPath不支援

示例：

我們以拉勾網城市JSON檔案 https://www.lagou.com/lbs/getAllCitySearchLabels.json 為例，擷取所有城市。

1 import urllib.request
 2 import json
 3 import jsonpath
 4 import ssl
 5 
 6 # 取消代理驗證
 7 ssl._create_default_https_context = ssl._create_unverified_context
 8 
 9 url = 'https://www.lagou.com/lbs/getAllCitySearchLabels.json'
10 headers = {
11     "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}
12 # 發送請求
13 request = urllib.request.Request(url, headers=headers)
14 response = urllib.request.urlopen(request)
15 html = response.read().decode("utf-8")
16 # 把json格式字元串轉換成python對象
17 jsonobj = json.loads(html)
18 # 從根節點開始，比對name節點
19 citylist = jsonpath.jsonpath(jsonobj, '$..name')
20 
21 fp = open('city.json', 'w')
22 content = json.dumps(citylist, ensure_ascii=False)
23 fp.write(content)
24 fp.close()

程式啟動後會在本地生成一個 city.json 的檔案，結果如下：

Python 爬蟲從入門到進階之路（十四）

1. json.loads()

2. json.dumps()

3. json.dump()

4. json.load()

JsonPath

JsonPath與XPath文法對比：

示例：

繼續閱讀

Python 爬蟲從入門到進階之路（六）

Python 爬蟲從入門到進階之路（七）

Python 爬蟲從入門到進階之路（八）

Python 爬蟲從入門到進階之路（九）

Python 爬蟲從入門到進階之路（十）

Python 爬蟲從入門到進階之路（十一）

Python 爬蟲從入門到進階之路（十二）

Python 3網絡爬蟲開發實戰》中文PDF+源代碼+書籍軟體包

Python 3網絡爬蟲開發實戰中文書籍軟體包(原創)

Python 爬蟲從入門到進階之路（十三）

Python 爬蟲從入門到進階之路（十五）

Python 爬蟲從入門到進階之路（十六）

Python 爬蟲從入門到進階之路（十七）

《Python 3網絡爬蟲開發實戰中文》超清PDF+源代碼+書籍軟體包

Python 爬蟲從入門到進階之路（十八）