带您走入缤纷多彩的

多媒体应用世界

总体导航图           |                学习指南
 
主要内容

您的位置:多媒体应用基础>导论>媒体元素>文本>编码

编码  

    在计算机系统中使用汉字,首先遇到的就是如何有效的把汉字输入到计算机中。将汉字输入到计算机中的方法很多,如,键盘输入、手写输入、声音输入等。各种输入法中,键盘输入法用得最为广泛,而键盘输入又分为西文标准键盘输入和汉字整字键盘输入、汉字整字键盘是一种专用的设备,每个汉字对应一个键,因此操作简单直观,但键盘盘面字数太多,查找困难,另外它是一种专用设备,一般的计算机并不配备,因此,使用较多的还是标准西文键盘输入法。

    为了能直接使用西文键盘输入汉字,必须为汉字设计相应的编码,即用英文字母和数字串来代替汉字,一种好的汉字编码方案应该具有如下特点:a 容易记忆,甚至无需记忆。b 字母数字串尽可能短,以加快输入速度。c 编码与汉字的对应性好,重码少。

以下介绍几种常见的汉字编码方案及实现方法:

1 国标码

    国标码是国家标准信息交换用汉字编码GB2312-80所规定的机器内部编码。每个汉字用4位十六进制数字来表示,在键盘上输入4次可输入一个汉字,其优点是无重码,但难以记忆。

    机内码即异形国标码,它与国标码的差别在于国标码每个字节的最高位为0,而异形国标码每个字节的最高位为1,因此将国标码转换为机内码,只需将国标码每个字节的最高位置1即可。需要注意的是外码在通过键盘输入到计算机中以后是以ASCII码串的形式存储的,因此,要得到机内码,首先要将ASCII码串表示的国标码转换成国标码。例如,"高"的ASCII码串表示的国标码为33H、38H、35H和46H,转换成数字表示的国标码则为385FH。

2 区位码

    区位码是国标码的一种变形。它把国标汉字分为94区,每区又分为94位。这样每个汉字可用两位十进制数表示区码,两位十进制数表示位码,输入一个汉字仍需4键,这种方法便于查找但难以记忆。如"高"的区位码为2463。

    区位码与国标码是一一对应的,要将区位码转换成机内码可先将其转换成国标码。区位码转换成国标码的方法是先将ASC11码串表示的汉字的区码和位码分别转换成对应的十六进制数,然后分别与20H相加就得到了对应的国标码。游乐国标码再将其转换成对应的机内码,只需将各字节的最高位置1即可。例如,"高"的用ASC11串表示的区位码为32H,34H,36H和33H,即区码和位码分别为24和63,将其转换成对应的十六进制数为18H和3FH,再转换为国标码则为385FH。

3 拼音码

    拼音码是以文字改革委员会公布的汉语拼音方案为基础的输入编码。使用这种编码方案只要掌握汉语拼音便可以输入汉字,基本上不用记忆,因此人们乐意使用,但由于汉字同音字很多,因此重码很多,拼音字母输入以后还要进行同音字的选择,故输入速度很低,为了减少重码,提高输入速度,人们又发明了双音编码。

    双音编码是以词为基础的编码,我国的汉字一字一音两字双音,在输入时,先输入第一个汉字的拼音,与单音编码一样,系统可以查出所有的同音字,并在提示行显示出来,这时用户可以选择其中的一个,也可以继续输入下一个字的拼音码。系统在接收到第二个字的拼音码后,就查出由这两个字组成的词,查到后便显示出来,这样既可以与单音输入法兼容,同时可以通过输入双音,减少重码。

4 拼形码

    是以汉字的字形为基础的编码,汉字可用几个基本的部分拼和而成,用来拼字的基本部分叫字根。把字根科学的安排在键盘上就形成了字根键盘,通过按键就能拼出汉字。拼形方案的优点是符合汉字的书写习惯,重码率低,对不认识的汉字也能输入,但需要记忆,下面介绍目前最流行的也是一种非常好的拼形编码方案-五笔字形编码方案。

五笔字型的编码:

(1)单字的五笔字型编码:五笔字型的基本字根共有130个,根据汉字起笔的五种笔画(横、竖、撇、捺、折)将这基本字根分为五类,每类又分为五组,共计25组,每组与a-y的一个英文字母相对应。五笔字型编码的码长为四,即由按照汉字书写顺序的第一、二、三和最后一个字根组成汉字的编码。对于不足四码的汉字,要加一个交叉识别码,交叉识别码由末笔画的类型号和字型号组成,类型就是前面所说的汉字的五种笔画,字型则指的是汉字的左右、上下、和杂合这三种结构。识别代码为两位数字,第一位为末笔笔画类型编号,第二位为字型代码。不同的类型、字型汉字的交叉识别代码及对应的英文字母见下表,如果加上交叉识别码仍不足四码,需再加一空格。

  横1 竖2 撇3 捺4 折5
左右1 11G 21H 31T 41Y 51N
上下2 12F 22J 32R 42U 52B
杂和3 13D 23K 33E 43I 53V
     末笔画、字型交叉识别码表 (见上)

(2)词组的五笔字型编码:词组的编码方法与单字的编码方法一致,也由四码组成。对于双字词,各取两个汉字的头两个字根组成的编码;对于三字词,头两个汉字各取其头一个字根,最后一个汉字取其头两个字根编码,对于四字以上的词,则头三个汉字和最后一个汉字各取其头一个字根组成编码。

(3)五笔字型的简码:为了减少击键次数,提高输入速度,同时也是为了简化输入,五笔字型允许使用简码,简码分为一、二、三级,分别只需击1、2、3个字母键再击一个空格键来输入简码汉字,简码总字数约5000个。

5 形音码

    所谓形音码是根据汉字的字形和发音两个因素所规定的编码。这类编码的规则比较复杂,需要记忆,但重码较少,适于专业人员使用。常用的形音码有首尾码、快速码、声韵部形码等,这里介绍前两种:

首尾码

    首尾码是指根据汉字的特点将汉字分解,归纳出汉字字母,并与英文键盘上的26个英文字母相对应的一种编码方案,首尾码由汉字的字首码和字尾码组成,并可加上汉字的首音码,加上汉字首音码的目的是减少重码。

    字首码是指用一英文字母代替汉字字形左上角的笔形,它亦称为首字母;字尾码是指汉字字形右下角的笔形所对应的英文字母,它亦称为尾字母。

快速码

    所谓快速码实际上是首尾码与拼音码的结合,首尾码的最大码长为四个字符,前两个字符为首尾码的首字母,后两个字符为拼音码的头两个字母,由于快速码是汉字字形与拼音的结合,因此重码较少,可以实现快速盲打,故叫快速码。