[整理]GB2312和GB18030

2009-05-13 02:09:15来源:未知 阅读 ()

新老客户大回馈,云服务器低至5折


在中国,中文信息编码由政府负责制定并监督实施。这是为了保证对于所有的系统中文的编码都是一致的,能够互相进行操作。从计算机的应用开始,我国已经颁布了多种中文信息编码标准,常用的是GB2312-1980,GB12345,GB13000(GBK),以及最新标准GB18030。值得一提的是,最新的GB18030标准将要作为强制标准实行,所有不支持GB18030标准的软件将不能作为产品出售。


从GB2312-1980编码开始,汉字都是采用双字节编码。为了与系统中基本的ASCII字符集区分开,所有汉字编码的每个字节的第一位都是1。例如:“啊”字的编码为0xB0A1。


GB2312的汉字编码规则为:



第一个字节的值:在0xB0到0xF7之间
第二个字节的值:在0xA0到0xFE之间。




GB12345和GB13000是对GB2312-1980的扩充,所有已经包含在GB2312中的汉字编码不变,另外增加更多的码位。称为GBK。其编码规则大致为:



第一个字节的值:在0x81到0xFE之间
第二个字节的值:在0x40到0xFE之间




GB18030也是对GB2312的扩展,其编码长度由2个字节变为1~4个字节。
编码规则是:



单字节,其值从0到0x7F。
双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。
四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节的值从0x81到0xFE,第四个字节的值从0x30到0x39





本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u/12258/showart_72815.html

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:FreeBSD的Libc中GB18030的代码初探

下一篇:雲端技术分群[系统级]