天天看點

Python學習-字元編碼淺析

1.什麼是字元編碼

既然是簡述那肯定是簡單明了.字元編碼,看名字就是一種字元的編碼格式,由于計算機内部采用二進制,想要将人類的語言字元輸入到計算機就需要一種編碼格式,這就是字元編碼.字元-------編碼(字元編碼表)----->二進制.

計算機存取人類輸入的内容并不是直接儲存的,因為計算機并不懂人的語言,每個國家還有每個國家的語言.那麼怎麼辦呢?于是就有一種統一的規定,人類輸入到記憶體中的資訊都存為uncode字元編碼格式的,再由記憶體存入計算機硬碟.硬碟有很多種編碼格式,這是因為為了向下相容.而我們在學習時隻需要大緻了解就行了.

unicode:目前的計算機記憶體使用的就是這種編碼格式,能夠相容萬國的字元,與别的字元編碼都有一種對應關系.

utf-8:英文名為(8-bit Unicode Transformation Format)是一種針對Unicode的可變長度字元編碼.

gbk:是為了相容漢字的字元編碼

2.python2與python3的差別

python2:在python2中将檔案讀入到記憶體中使,解釋器預設使用的是ASCII碼.但是在檔案的首行寫上 coding:utf-8,解釋器就會按将utf-8作為編碼标準不再使用預設的字元編碼,這就是檔案頭了.

python3:解釋器預設使用utf-8

總結:為了保證不亂碼的關鍵! 字元當初存儲在計算機中使是用什麼編碼的,就應該用什麼解碼.

焚膏油以繼晷,恒兀兀以窮年。