天天看點

python encode和decode函數說明

字元串編碼常用類型:utf-8,gb2312,cp936,gbk等。

python中,我們使用decode()和encode()來進行解碼和編碼

在python中,使用unicode類型作為編碼的基礎類型。即

decode encode

str ---------> unicode --------->str

u = u'中文' #顯示指定unicode類型對象u
str = u.encode('gb2312') #以gb2312編碼對unicode對像進行編碼
str1 = u.encode('gbk') #以gbk編碼對unicode對像進行編碼
str2 = u.encode('utf-8') #以utf-8編碼對unicode對像進行編碼
u1 = str.decode('gb2312')#以gb2312編碼對字元串str進行解碼,以擷取unicode
u2 = str.decode('utf-8')#如果以utf-8的編碼對str進行解碼得到的結果,将無法還原原來的unicode類型           

複制

如上面代碼,str\str1\str2均為字元串類型(str),給字元串操作帶來較大的複雜性。

好消息來了,那就是python3,在新版本的python3中,取消了unicode類型,代替它的是使用unicode字元的字元串類型(str),字元串類型(str)成為基礎類型如下所示,而編碼後的變為了位元組類型(bytes),但是兩個函數的使用方法不變:

decode encode

bytes ------> str(unicode)------>bytes

u = '中文' #指定字元串類型對象u
str = u.encode('gb2312') #以gb2312編碼對u進行編碼,獲得bytes類型對象str
u1 = str.decode('gb2312')#以gb2312編碼對字元串str進行解碼,獲得字元串類型對象u1
u2 = str.decode('utf-8')#如果以utf-8的編碼對str進行解碼得到的結果,将無法還原原來的字元串内容           

複制

避免不了的是,檔案讀取問題:

假如我們讀取一個檔案,檔案儲存時,使用的編碼格式,決定了我們從檔案讀取的内容的編碼格式,例如,我們從記事本建立一個文本檔案test.txt, 編輯内容,儲存的時候注意,編碼格式是可以選擇的,例如我們可以選擇gb2312,那麼使用python讀取檔案内容,方式如下:

f = open('test.txt','r')
s = f.read() #讀取檔案内容,如果是不識别的encoding格式(識别的encoding類型跟使用的系統有關),這裡将讀取失敗
'''假設檔案儲存時以gb2312編碼儲存'''
u = s.decode('gb2312') #以檔案儲存格式對内容進行解碼,獲得unicode字元串
'''下面我們就可以對内容進行各種編碼的轉換了'''
str = u.encode('utf-8')#轉換為utf-8編碼的字元串str
str1 = u.encode('gbk')#轉換為gbk編碼的字元串str1
str1 = u.encode('utf-16')#轉換為utf-16編碼的字元串str1           

複制

python給我們提供了一個包codecs進行檔案的讀取,這個包中的open()函數可以指定編碼的類型:

import codecs
f = codecs.open('text.text','r+',encoding='utf-8')#必須事先知道檔案的編碼格式,這裡檔案編碼是使用的utf-8
content = f.read()#如果open時使用的encoding和檔案本身的encoding不一緻的話,那麼這裡将将會産生錯誤
f.write('你想要寫入的資訊')
f.close()           

複制

encode()和decode()

  • decode英文意思是 解碼,encode英文原意 編碼
  • 字元串在Python内部的表示是unicode編碼,是以,在做編碼轉換時,通常需要以unicode作為中間編碼, 即先将其他編碼的字元串解碼(decode)成unicode,再從unicode編碼(encode)成另一種編碼。
  • decode的作用是将其他編碼的字元串轉換成unicode編碼,如str1.decode('gb2312'),表示将gb2312編碼的字元串str1轉換成unicode編碼。
  • encode的作用是将unicode編碼轉換成其他編碼的字元串,如str2.encode('gb2312'),表示将unicode編碼的字元串str2轉換成gb2312編碼。
  • 總得意思:想要将其他的編碼轉換成utf-8必須先将其解碼成unicode然後重新編碼成utf-8,它是以unicode為轉換媒介的 如:

    s='中文' 如果是在utf8的檔案中,該字元串就是utf8編碼,如果是在gb2312的檔案中,則其編碼為gb2312。

    這種情況下,要進行編碼轉換,都需要先用 decode方法将其轉換成unicode編碼,再使用encode方法将其轉換成其他編碼。

    通常,在沒有指定特定的編碼方式時,都是使用的系統預設編碼建立的代碼檔案

python encode和decode函數說明