天天看点

程序字符编码概述

ASCII编码:        

        美国(国家)信息交换标准(代)码,一种使用7个或8个二进制位进行编码的方案,目前使用最广泛的西文字符集及其编码是 ASCII 字符集和 ASCII 码( ASCII 是 American Standard Code for Information Interchange 的缩写),它同时也被国际标准化组织( International Organization for Standardization, ISO )批准为国际标准。标准 ASCII 码使用 7 个二进位对字符进行编码,对应的 ISO 标准为 ISO646 标准。虽然标准 ASCII 码是 7 位编码,但由于计算机基本处理单位为字节( 1byte = 8bit ),所以一般仍以一个字节来存放一个 ASCII 字符。每一个字节中多余出来的一位(最高位)在计算机内部通常保持为 0 (在数据传输时可用作奇偶校验位)。

扩展ASCII码:        

        由于标准 ASCII 字符集字符数目有限,在实际应用中往往无法满足要求。为此,国际标准化组织又制定了 ISO2022 标准,它规定了在保持与 ISO646 兼容的前提下将 ASCII 字符集扩充为 8 位代码的统一方法。ISO 陆续制定了一批适用于不同地区的扩充 ASCII 字符集,每种扩充 ASCII 字符集分别可以扩充 128 个字符,这些扩充字符的编码均为高位为 1 的 8 位代码(即十进制数 128~255 )。

ANSI编码(MBCS):      

         使用2个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码,又称为"MBCS(Muilti-Bytes Character Set,多字节字符集)"。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码。     

Big5编码(大五码):    

         支持中文繁体,目前,Big5编码在台湾、香港、澳门及其他海外华人中普遍使用,成为了繁体中文编码的事实标准。

GB2312编码:            

         支持简体,区位码表示汉字,GB2312编码用两个字节(8位2进制)表示一个汉字,这种编码方式也仅仅在中国行得通。

GBK编码:        

         支持中文简体、繁体,通行于中国大陆。新加坡等地也使用此编码。

Unicode编码:        

         支持中文简体、繁体,统一了ANSI编码体系下的Big5编码、GB2312编码、GBK编码、JIS编码,但是它的效率不高,对存储和传输来说都很耗资源。

UTF-8编码:        

         支持中文简体、繁体,可以根据不同的符号自动选择编码的长短。

继续阅读