天天看點

程式字元編碼概述

ASCII編碼:        

        美國(國家)資訊交換标準(代)碼,一種使用7個或8個二進制位進行編碼的方案,目前使用最廣泛的西文字元集及其編碼是 ASCII 字元集和 ASCII 碼( ASCII 是 American Standard Code for Information Interchange 的縮寫),它同時也被國際标準化組織( International Organization for Standardization, ISO )準許為國際标準。标準 ASCII 碼使用 7 個二進位對字元進行編碼,對應的 ISO 标準為 ISO646 标準。雖然标準 ASCII 碼是 7 位編碼,但由于計算機基本處理機關為位元組( 1byte = 8bit ),是以一般仍以一個位元組來存放一個 ASCII 字元。每一個位元組中多餘出來的一位(最高位)在計算機内部通常保持為 0 (在資料傳輸時可用作奇偶校驗位)。

擴充ASCII碼:        

        由于标準 ASCII 字元集字元數目有限,在實際應用中往往無法滿足要求。為此,國際标準化組織又制定了 ISO2022 标準,它規定了在保持與 ISO646 相容的前提下将 ASCII 字元集擴充為 8 位代碼的統一方法。ISO 陸續制定了一批适用于不同地區的擴充 ASCII 字元集,每種擴充 ASCII 字元集分别可以擴充 128 個字元,這些擴充字元的編碼均為高位為 1 的 8 位代碼(即十進制數 128~255 )。

ANSI編碼(MBCS):      

         使用2個位元組來代表一個字元的各種漢字延伸編碼方式,稱為 ANSI 編碼,又稱為"MBCS(Muilti-Bytes Character Set,多位元組字元集)"。在簡體中文系統下,ANSI 編碼代表 GB2312 編碼,在日文作業系統下,ANSI 編碼代表 JIS 編碼。     

Big5編碼(大五碼):    

         支援中文繁體,目前,Big5編碼在台灣、香港、澳門及其他海外華人中普遍使用,成為了繁體中文編碼的事實标準。

GB2312編碼:            

         支援簡體,區位碼表示漢字,GB2312編碼用兩個位元組(8位2進制)表示一個漢字,這種編碼方式也僅僅在中國行得通。

GBK編碼:        

         支援中文簡體、繁體,通行于中國大陸。新加坡等地也使用此編碼。

Unicode編碼:        

         支援中文簡體、繁體,統一了ANSI編碼體系下的Big5編碼、GB2312編碼、GBK編碼、JIS編碼,但是它的效率不高,對存儲和傳輸來說都很耗資源。

UTF-8編碼:        

         支援中文簡體、繁體,可以根據不同的符号自動選擇編碼的長短。

繼續閱讀