|
|
字符编码
在计算机中,对非数值的文字和其他符号进行处理时,要对文字和符号进行数字化处理,即用二进制编码来表示文字和符号。字符编码指的是用二进制编码来表示字母、数字以及专门符号。
在计算机系统中,有两种重要的字符编码方式:ASCII码和EBCDIC码。EBCDIC码主要用于IBM的大型主机,ASCII码主要用于微型机与小型机。
目前计算机中普遍采用的是ASCII(American Standard Code for Information Interchange)码,即美国信息交换标准代码。 ASCII码有7位版本和8位版本两种,国际上通用的是7位版本,7位版本的ASCII码有128个元素,只需用7个二进制位表示,其中控制字符34个,阿拉伯数字10个,大小写英文字母52个.各种标点符号和运算符号32个。在计算机中实际用8位表示一个字符,这样最高位为“0”。EBCDIC(Extended BCD Decimal Interchange Code)码是扩展的BCD交换代码,用8位二进制数编码表示字符。
ASCII码不能表示汉字。我国制定了汉字信息交换代码(GB 2312),简称国标码。国标码的一个汉字编码占两个字节。为了和ASCII码区别,两个字节的最高位均为1。由于国标码中共规定了6763个汉字,满足不了更广泛汉字信息处理的需要,因此我国又制定了扩充编码方案GBK。GBK编码标准在GB 2312标准的基础上扩充了14000多个汉字,共有20000多个汉字。
由于历史和地区原因,有时一种文字会出现多种编码方案,特别是汉字。汉字除国标码外还有BIG5码和HZ码等。BIG5码是针对繁体汉字的汉字编码,在中国的台湾和香港的电脑系统中得到普遍应用,HZ码是在INTERNET上广泛使用的一种文字编码。当某中汉字编码不能被操作系统识别时,用这种汉字编码所表示的信息就无法正确显示,这称为乱码。
为了解决这个问题,国际标准组织制定了UNICODE编码,针对各国文字、符号进行统一编码。UNICODE对各国文字符号统一进行了编码,如果计算机中用UNICODE表示字符,就不会出乱码。目前UNICODE已在WINDOWS操作系统中得到了应用。UNICODE标准有多种版本,新的版本用32位二进制数表示一个字符。
[返回]
|
|
|
|
|