天天看点

GB2312,GBK,Unicode

           为了使我们的计算机能够显示文字或字符,首先要内存中可以存储文字或字符。要存储一个文字或者字符有多种方式:

           (1)我们可以把文字变为图片(点阵),直接保存起来,当需要显示的时候,把图片绘制出来。

           (2)把文字或者字符变成矢量数据存储起来,需要显示的时候,再根据矢量规则绘制出来即可。

           (3)把文字或者或者先编号,然后要问题显示样式与编号一一对应起来,当需要显示文字的时候,首先根据编号去找文字对应的图片,然后绘制。

          仔细分析以上三种方式,第一种和第二种理论上都是可行的。但是第一种直接存储图片数据量会很大,第二种虽然基本上能够解决第一种情况的问题,但是和第一种一样还存在一个很严重的问题,就是各个不同厂商的的文字或者字符不能够通用,并且换一台计算机,则他不知道绘制规则。第三种就是计算机文字编码的方式了。

          具体做法是:首先把我所想用到的文字都变成一个唯一编码,这个编号发布出去,让所有人都知道,这个编号就称之为文字编码,每个文字对应唯一编码,当计算机绘制文字的时候先根据这个编码去找对应的字体文件中这个编码的图片或者矢量图形来绘制即可。只要大家都遵循这个编码规范,不同的字体就可以使用在不同计算机不同硬件了。

         常见的编码有ascii、gb2312、gbk、unicode等。这里的重点是gbk和unicode。

        gb2312码是中华人民共和国国家汉字信息交换用的编码,全称《信息交换用汉字编码字符集——基本集》,是国家标准总局1981年发布。整个字符集分为94个区,每个区有94个位,每个区位上一个字符。区码转成16进制加上2020h转成国际码,国际码加上8080h就可以转成机内码。为了使汉字的编码不重复,每个汉字使用两个字节来表示,高位一个字节对应着区码,低位字节对应着位码,区码和位码构成一个汉字。在gb2312的94个区中,01-09区是特殊字符,16-55区是一级汉字,按照拼音进行排序,56-87区是二级汉字,按照偏旁排序。

        gbk,全称《汉字内码扩展规范》,是由全国信息技术标准化技术委员会制定。gbk编码向下与gb2312编码完全兼容。gbk编码,是在gb2312-80标准基础上的内码扩展规范,使用了双字节编码方案,其编码范围从8140至fefe(剔除xx7f),共23940个码位,共收录了21003个汉字,完全兼容gb2312-80标准,支持国际标准iso/iec10646-1和国家标准gb13000-1中的全部中日韩汉字,并包含了big5编码中的所有汉字。

        unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。unicode用数字0-0x10ffff来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。utf-8、utf-16、utf-32都是将数字转换到程序数据的编码方案。

        如下两张图片就可以反映出来gbk编码方式以及gbk和gb2312的关系,图片来自维基百科。

GB2312,GBK,Unicode
GB2312,GBK,Unicode

             在项目中为了可以将文字编码转换成开发环境和语言支持的格式,必须要写gbk和unicode的编码转换。简单的来说,开发的时候就是给你一个文字,但是你的平台接口是unicode编码,而你得到的是gbk编码,所以必须进行转换,转换需要一个映射关系,即gbk编码代表的字符,所对应的unicode编码。

             为了获取到gbk编码和unicode编码之间的对应关系,下面是我写的c#代码。

                以上贴的是主要的代码,具体界面代码,请直接下载代码工程包,其中效果展示如下:

                代码下载:​​javascript:void(0)​​

GB2312,GBK,Unicode

 ​