字元常見的幾種編碼方式

無論在是在編輯文本檔案的時候，還是在制作網頁的時候，總會遇到文本編碼方式的問題。如果處理不當，就會出現亂碼的問題。是以，有必要對文本的編碼方式做一個詳盡的了解。

常見的一些字元編碼方式無非有：Unicode、ASCII、GBK、GB2312、UTF-8。下面先對常見的這一些字元編碼方式作下說明：

1.ASCII碼

這是美國在19世紀60年代的時候為了建立英文字元和二進制的關系時制定的編碼規範，它能表示128個字元，其中包括英文字元、阿拉伯數字、西文字元以及32個控制字元。它用一個位元組來表示具體的字元，但它隻用後7位來表示字元（2^7=128），最前面的一位統一規定為0。

2.擴充的ASCII碼

原本的ASCII碼對于英文語言的國家是夠用了，但是歐洲國家的一些語言會有拼音，這時7個位元組就不夠用了。是以一些歐洲國家就決定，利用位元組中閑置的最高位編入新的符号。比如，法語中的é的編碼為130（二進制10000010）。這樣一來，這些歐洲國家使用的編碼體系，可以表示最多256個符号。但這時問題也出現了：不同的國家有不同的字母，是以，哪怕它們都使用256個符号的編碼方式，代表的字母卻不一樣。比如，130在法語編碼中代表了é，在希伯來語編碼中卻代表了字母Gimel (ג)，在俄語編碼中又會代表另一個符号。但是不管怎樣，所有這些編碼方式中，0—127表示的符号是一樣的，不一樣的隻是128—255的這一段。這個問題就直接促使了Unicode編碼的産生。

3.Unicode符号集

正如上一節所說，世界上存在着多種編碼方式，同一個二進制數字可以被解釋成不同的符号。是以，要想打開一個文本檔案，就必須知道它的編碼方式，否則用錯誤的編碼方式解讀，就會出現亂碼。為什麼電子郵件常常出現亂碼？就是因為發信人和收信人使用的編碼方式不一樣。而Unicode就是這樣一種編碼：它包含了世界上所有的符号，并且每一個符号都是獨一無二的。比如，U+0639表示阿拉伯字母Ain，U+0041表示英語的大寫字母A，U+4E25表示漢字“嚴”。具體的符号對應表，可以查詢unicode.org，或者專門的漢字對應表。很多人都說Unicode編碼，但其實Unicode是一個符号集（世界上所有符号的符号集），而不是一種新的編碼方式。

但是正因為Unicode包含了所有的字元，而有些國家的字元用一個位元組便可以表示，而有些國家的字元要用多個位元組才能表示出來。即産生了兩個問題：第一，如果有兩個位元組的資料，那計算機怎麼知道這兩個位元組是表示一個漢字呢？還是表示兩個英文字母呢？第二，因為不同字元需要的存儲長度不一樣，那麼如果Unicode規定用2個位元組存儲字元，那麼英文字元存儲時前面1個位元組都是0，這就大大浪費了存儲空間。

上面兩個問題造成的結果是：1）出現了unicode的多種存儲方式，也就是說有許多種不同的二進制格式，可以用來表示unicode。2）unicode在很長一段時間内無法推廣，直到網際網路的出現。

4.UTF-8

網際網路的普及，強烈要求出現一種統一的編碼方式。UTF-8就是在網際網路上使用最廣的一種unicode的實作方式。其他實作方式還包括UTF-16和UTF-32，不過在網際網路上基本不用。重複一遍，這裡的關系是，UTF-8是Unicode的實作方式之一。

UTF-8最大的一個特點，就是它是一種變長的編碼方式。它可以使用1~4個位元組表示一個符号，根據不同的符号而變化位元組長度。

UTF-8的編碼規則很簡單，隻有兩條：

1）對于單位元組的符号，位元組的第一位設為0，後面7位為這個符号的unicode碼。是以對于英語字母，UTF-8編碼和ASCII碼是相同的。

2）對于n位元組的符号（n>1），第一個位元組的前n位都設為1，第n+1位設為0，後面位元組的前兩位一律設為10。剩下的沒有提及的二進制位，全部為這個符号的unicode碼。

5.GBK/GB2312/GB18030

GBK和GB2312都是針對簡體字的編碼，隻是GB2312隻支援六千多個漢字的編碼，而GBK支援1萬多個漢字編碼。而GB18030是用于繁體字的編碼。漢字存儲時都使用兩個位元組來儲存。

總的來說：

ASCII編碼：用來表示英文，它使用1個位元組表示，其中第一位規定為0，其他7位存儲資料，一共可以表示128個字元。

拓展ASCII編碼：用于表示更多的歐洲文字，用8個位存儲資料，一共可以表示256個字元

GBK/GB2312/GB18030：表示漢字。GBK/GB2312表示簡體中文，GB18030表示繁體中文。

Unicode編碼：包含世界上所有的字元，是一個字元集。

UTF-8：是Unicode字元的實作方式之一，它使用1-4個字元表示一個符号，根據不同的符号而變化位元組長度。

*如果你想了解更多關于編碼的資訊，推薦閱讀：字元編碼方式（空閑時請再繼續研讀一下這篇文章）

*相關閱讀：判定檔案編碼或文本流編碼的方式（Java實作）