天天看點

玩兒 “爬蟲” 朋友最愛,都2021了,這個Python庫你還不知道嗎?

1.chardet庫的安裝與介紹

玩兒過爬蟲的朋友應該知道,在爬取不同的網頁時,傳回結果會出現亂碼的情況。比如,在爬取某個中文網頁的時候,有的頁面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些頁面,知道網頁編碼很重要的。

雖然HTML頁面有charset标簽,但是有些時候是不對的,那麼chardet就能幫我們大忙了。使用 chardet 可以很友善的實作字元串/檔案的編碼檢測。

如果你安裝過Anaconda,那麼可以直接使用chardet庫。如果你隻是安裝了Python的話,就需要使用下面幾行代碼,完成chardet庫的安裝。

pip install chardet      

接着,使用下面這行代碼,導入chardet庫。

import      

2.chardet庫的使用

這個小節,我們分3部分講解。

2.1 chardet.detect()函數

detect()函數接受一個參數,一個非unicode字元串。它傳回一個字典,其中包含自動檢測到的字元編碼和從0到1的可信度級别。

  • encoding:表示字元編碼方式。
  • confidence:表示可信度。
  • language:語言。

光看這個解釋,大多數朋友可能看不懂,下面我們就用例子來講述這個函數。

2.2 使用該函數分别檢測gbk、utf-8和日語

檢測gbk編碼的中文:

str1 = '大家好,我是黃同學'.encode('gbk')
chardet.detect(str1)

chardet.detect(str1)["encoding"]      

結果如下:

玩兒 “爬蟲” 朋友最愛,都2021了,這個Python庫你還不知道嗎?

檢測的編碼是GB2312,注意到GBK是GB2312的父集,兩者是同一種編碼,檢測正确的機率是99%,language字段指出的語言是’Chinese’。

檢測utf-8編碼的中文:

str2 = '我有一個夢想'.encode('utf-8')
chardet.detect(str2)

chardet.detect(str2)["encoding"]      

結果如下:

玩兒 “爬蟲” 朋友最愛,都2021了,這個Python庫你還不知道嗎?

檢測一段日文:

str3 = 'ありがとう'.encode('euc-jp')
chardet.detect(str3)

chardet.detect(str3)      

結果如下:

玩兒 “爬蟲” 朋友最愛,都2021了,這個Python庫你還不知道嗎?

2.3 如何在“爬蟲”中使用chardet庫呢?

我們以百度網頁為例子,進行講述。

玩兒 “爬蟲” 朋友最愛,都2021了,這個Python庫你還不知道嗎?

這個網頁的源代碼,使用的是什麼編碼呢?我們看看源代碼:

玩兒 “爬蟲” 朋友最愛,都2021了,這個Python庫你還不知道嗎?

從圖中可以看到,是utf-8字元編碼。

如果不使用chardet庫,擷取網頁源代碼的時候,怎麼指定字元編碼呢?

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)
response.encoding = "utf-8"
response.text      

結果如下:

玩兒 “爬蟲” 朋友最愛,都2021了,這個Python庫你還不知道嗎?

你會發現:正确指定編碼後,沒有亂碼。如果你将編碼改為gbk,再看看結果。此時已經亂碼。

玩兒 “爬蟲” 朋友最愛,都2021了,這個Python庫你還不知道嗎?

如果使用chardet庫,擷取網頁源代碼的時候,可以輕松指定字元編碼!

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)

# 注意下面這行代碼,是怎麼寫的?
response.encoding = chardet.detect(response.content)['encoding']
response.text      

結果如下:

玩兒 “爬蟲” 朋友最愛,都2021了,這個Python庫你還不知道嗎?