关于汉字编码
2009-05-13 01:55:32来源:未知 阅读 ()
关于汉字编码(简要介绍)
关于汉字编码
所谓编码,是以固定的顺序排列字符,并以此做为记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。
字库的编码是字库组织的依据,也是文字处理的基础。不同国家和地区有不同的编码标准,和中文字库有关的常见编码有:
单字节编码
、
GB2312-80
、
GB12345-90
、
GBK
、
Unicode编码
、
ISO10646 / Unicode字符集
、
GB18030-2000
、
BIG5编码
,下面简要介绍一下:
- 单字节编码
- MS Windows:Windows Latin 1(ANSI)
- MS-DOS:MS-DOS Latin US
- Macintosh:Macintosh Roman
GB2312-80
全称是GB2312-80《信息交换用汉字编码字符集 基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码, Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312。
- 双字节编码
- 范围:A1A1~FEFE
- A1-A9:符号区,包含682个符号
- B0-F7:汉字区,包含6763个汉字
GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。
GB12345-90
1990年制定了繁体字的编码标准GB12345-90《信息交换用汉字编码字符集 第一辅助集》,目的在于规范必须使用繁体字的各种场合,以及古籍整理等。该标准共收录6866个汉字(比GB2312多103个字,其它厂商的字库大多不包括这些字),纯繁体的字大概有2200余个。
- 双字节编码
- 范围:A1A1~FEFE
- A1-A9:符号区,增加竖排符号
- B0-F9:汉字区,包含6866个汉字
Unicode编码(Universal Multiple Octet Coded Character Set)
国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium,并于1991年10月与WG2达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内容与ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS(Draf International Standard),目前版本V2.0于1996公布,内容包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个。
ISO10646 / Unicode字符集
全球可以共享的编码字符集。
- UCS-4:组八位 平面八位 行八位 字位八位
- UCS-2:00组中的00平面是基本多文种平面(BMP),4E00~9FFF 中日韩文字
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
上一篇:Unicode与ISO10646
下一篇:wincvs通过ssh连接cvs
- 选择FreeBSD的中文编码 2009-05-13
- FireFox3对FTP下中文名文件的问题 2009-05-13
- 关于转载网页/文章的说明 2009-05-13
- 关于检查磁盘的命令fsck 2009-05-13
- 转:一些关于ports安装及其他问题的解决办法 2009-05-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash