首页 > > 程序设计 > C/C++ >

关于Unicode和字符集的最基础的知识

2008-02-23 05:34:11来源：互联网阅读 ()

ASCII 码

　　7 位（00～7F）。32 ~ 127 表示字符。32 是空格，32 以下是控制字符（不可见）。第8位没有被使用。全世界很多人同时对这个位的含义发展了不同的用处。比如 IBM PC 中的 OEM 字符集。最后就 128 位以下的用处达成共识，定制了 ASCII 标准。而 128 位以上的可能有不同的解释，这些不同的解释就叫做 code pages。甚至有用于在同一台电脑上解释多种语言的 code page。

　　同时，在亚洲发生了更加疯狂的事情。亚洲语言的字符集通常数以千计， 8 位已不足以表达，这通常用一种很凌乱的，叫做 DBCS（双字节字符集,double byte character set）的系统来解决。这种系统中，有些字符占用 1 字节，有些 2 字节。这样一来，在字符串中向前解析很容易，而倒退却很麻烦。程式员们被建议，不要使用 s 或 s-- 来前进和后退，而使用一些函数，比如 Windows 的 AnsiNext 和AnsiPrev。因为这些函数知道是怎么回事。

　　这些不同的假设（code page）在单个的机器上没有问题。而随着 Internet 的发展，字符串要从一个机器上移到另一个机器上，这就产生了问题。于是，Unicode 出现了。

Unicode

　　Unicode 是个勇敢的成就。他把在这个星球上的每一个合理的文字系统整合成了一个单一的字符集。很多人还存在这样的误解： Unicode 仅仅是 16 位的这么简单，每个字符占 16 位，所以一共有 65536 个可能的字符。然而，这是错误的。但是不要紧，因为这是大部分人都会犯的一个普遍的错误。

　　实际上，Unicode 理解字符的方式是截然不同的，而这是我们必须了解的。到现在为止，我们都曾认为：一个字符对应到一些在磁盘上或内存中储存的位（bits），如： A -> 0100 0001。而在 Unicode 中，一个字符实际上对应一种叫做 code point 的东西。比如 A 这个字符，是抽象的（原文：platonic,柏拉图式的，理想的）一个概念。无论是 Times New Roman 或 Helvetica 或其他的什么字体中，都代表同一个字符。但是他和小写的字母 a 不同。但是在其他的语言，比如希伯莱语（Hebrew）或德语（German）, 阿拉伯语（Arabian）中，同一个字母的不同的字形代表的含义是否相同，是有争议的。经过长时间的争论，这些也终于被确定了。

　　每一个字母表中的每一个抽象的字母，都被赋予了一个数字，比如 U 0645。这个叫做 code point。U 表示： Unicode, 数字是 16 进制的。您能够通过 charmap 命令来查看任何这些编码。（Windows 2000/XP 中）或访问 Unicode 的网站（http://www.unicode.org）Unicode 中 code point 的数字的大小是没有限制的，而且也早就超过了 65535。所以不是每个字符都能存储在两个字节中。那么，一个字符串 "Hello"，在 Unicode 中会表示成 5 个 code points :

程式代码
U 0048 U 0065 U 006C U 006C U 006F

只但是是一些数字。但我们现在还没有提到如何在磁盘或 Email 中表示这些信息，这就是我们下面要提到的编码（Encoding）干的事情。

Encodings （编码）

　　最初的 Unicode Encoding, 使用两个字节表示一个字符。那么 "Hello" 表示为：
00 48 00 65 00 6C 00 6C 00 6F
实际上，更有一种表示方式：
48 00 65 00 6C 00 6C 00 6F 00
到底高位字节在前还是低位字节在前面，是两种不同的模式。这要看特定的 CPU 在何种模式下工作的更快。所以这两种都有。这就有了两种不同的 Unicode 表示方式了，为了区分，人们又采用了一种奇异的方式：在每一个 Unicode 字符串的前面，加上 FEFF （这称为 Unicode 字节顺序标志，Unicode Byte Order Mark）.假如您交换高位和低位次序，那么会加上一个 FFFE. 这样，读这个字符串的人才知道要对每两个相邻的字节进行交换。但在最初的时候，并不是每一个 Unicode 字符串都有这个标志的。

　　这看起来很不错。可程式员们开始抱怨了，“看看那些零！”。因为有些是美国人，他们使用英语。而英语中很少需要使用 U 00FF 以上的字符，有些人无法忍受采用双倍的存储空间来存储每个字符。基于这些原因，很多人决定忽视 Unicode, 而同时，事情变得更糟了。

　　然后人们定制了 UTF-8. UTF-8 是用于保存 Unicode code points 的另一套系统。每一个 U 数字，在内存中占用 8 bit. 在 UTF-8 中，任何一个 0~127 的 code point 占用一个字节。只有 128 连同更大的才占用 2, 3, 直到 6 个字节。具体如下图所示：

16进制的最小的数 16进制的最大的数内存中的字节序列
-------------------------------------------------------------------------------------------------------------------------------
00000000 0000007F 0vvvvvvv
00000080 000007FF 110vvvvv 10vvvvvv
00000800 0000FFFF 1110vvvv 10vvvvvv 10vvvvvv
00010000 001FFFFF 11110vvv 10vvvvvv 10vvvvvv 10vvvvvv
00200000 03FFFFFF 111110vv 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv
04000000 7FFFFFFF 1111110v 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv 10vvvvvv

　　这看起来很不错，其中的英文字符和 ASCII 中相同。所以美国人根本没意识到有什么错误。只有世界上的其他国家需要使用高位的字节。特别的，"Hello" 这个字符串，Unicode code point 为 U 0048 U 0065 U 006C U 006C U 006F，会被存储为 48 65 6C 6C 6F。和 ASCII, ANSI, 连同在这个星球上的任何一个 OEM 的字符集中表示的含义都相同。现在，假如您需要表示重音的字符，或希腊语，您需要使用多个字节来表示一个 code point. 但美国人不会介意这些。（UTF-8 更有一个好处就是，老的字符串处理程式使用一个为 0 的字节来表示 null-terminator, 不会截断字符串）

　　到现在为止已介绍了三种 Unicode 的表示方法：

　　传统的双字节表示方法，称为 UCS-2（因为有 2 个字节）或 UTF-16（因为有 16 个位）而且您还要搞清楚是高位在前的，还是高位在后的 UCS-2.

　　更有一种就是新的 UTF-8. 假如您的程式只使用英文的话，他仍然会工作正常。

　　实际上更有一堆的其他办法对 Unicode 进行编码：有 UTF-7，这种编码方式大部分和 UTF-8 相同，但确保高位一定为 0. 所以假如您必须通过某种 Email 系统传送 Unicode，这些系统认为 7 位足够了，那使用 UTF-7 会正常。更有 UCS-4, 储存每一个 code point 为 4 个字节。他的长处是每一个字符都保存为同样长的。但很明显，缺点是浪费太多存储空间了。

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有