天天看點

Python必知詞彙:字元集

字元是各種文字和符号的總稱,包括各國家文字、标點符号、圖形符号、數字等。字元集是多個字元的集合,字元集種類較多,每個字元集包含的字元個數不同,常見字元集名稱:ASCII字元集、GB2312字元集、BIG5字元集、 GB18030字元集、UTF-8字元集、Unicode字元集等。

計算機要準确的處理各種字元集文字,就需要進行字元編碼,以便文本在計算機的存儲和通信過程中進行傳遞。

在計算機技術發展的早期,如ASCII(1963年)和EBCDIC(1964年)這樣的字元集逐漸成為标準。但這些字元集的局限很快就變得明顯,于是人們開發了許多方法來擴充它們。目前較為常見的字元集有以下幾種:

  • ASCII為美國所用編碼标準,使用7位數字對美國常用字元進行編碼,其中包含128個字元。
  • ISO-8859-1為歐洲标準的編碼,使用8位數字進行編碼,包含256個字元。
  • GB2312、GBK為中國标準編碼。
  • Unicode為萬國碼,包含世界上所有的語言與符号,其編碼格式有多種實作,包括UTF-8、UTF-16、UTF-32等。程式設計人員最常用的為UTF-8編碼。

在編寫程式時,若出現亂碼的情況,可能是編碼與解碼的格式不統一造成的,應立刻檢查檢查字元集是否正确。

資料來源:

  • 維基百科詞條:字元編碼
  • 百度百科詞條:字元集