中国计算机应用基础知识:汉字和字符编码

(1)计算机中的信息单元

单位位、字、字长和字节等。，这是用来表示计算机中信息大小的基本概念。

①位:计算机中数据存储的最小单位是二进制位，英文缩写为bit，音译为bit，可用小写字母B表示..

②字节:八位二进制位称为字节，在英语中可以用大写字母B来表示，是计算机存储的基本单位。八位二进制数的一个字节，其位数从左至右依次为b7，b6，b5，b4，b3，b2，b1，b0。在计算机中，经常用字节数来表示存储容量，可以用KB、MB、GB、TB来表示，它们之间的换算关系如下:

1KB = 210B = 1024 b

1MB = 210KB = 1024KB

1GB = 210MB = 1024 MB

1TB = 210GB = 1024 GB

③字符:计算机在存储、传输或操作时作为一个整体单元进行操作的一组二进制代码，称为一个计算机字符。

④字长:每个字包含的位数称为字长。因为字长是计算机一次能处理的二进制位数，它关系到计算机的数据处理速度，是衡量计算机性能的重要因素。

(2)字符的编码。

① ASCII码。

计算机只能识别二进制数，所以计算机中的数字、字母和符号也必须用二进制编码。编码方法有很多种。ASCII码(美国信息交换标准码)广泛应用于微型计算机。ASCII码已被国际标准化组织(ISO)接纳为国际标准，称为ISO-646。ASCII码有两种:7位版本和8位版本，7位版本是国际通用的ASCII码。7位版本的ASCII包含10个阿拉伯数字、52个英文大小写字母、32个标点符号和运算符、34个控制码，***128个字符，因此可以用7位二进制数表示。7位ASCII码字符如下图所示:

要确定一个数字、字母、符号或控制字符的ASCII码，我们可以先找到它在表中的位置，然后确定它对应的十进制值或二进制值。例如，小写字母“a”的ASCII码的十进制值为97，二进制值为110001b (b代表二进制数)，如果换算成十六进制，其值为61H(H代表十六进制数)。从表中可以看出，数字0 ~ 9的ASCII码是30H~39H(后缀H表示十六进制数)，大写字母A ~ Z的ASCII码是41h ~ 5ah，小写字母A ~ Z的ASCII码是61h ~ 7ah。字符大小的比较是看其ASCII码值的大小。

在表中，NUL，比利时，法国，法国，捷克，德国等。是控制字符，NUL代表空白，BEL代表报警，BS代表退格，LF代表换行，FF代表换页，CR代表回车，SP代表空格，DEL代表删除。

② BCD码。

计算机处理数字时，需要进行二进制和十进制之间的转换，也就是将十进制数进行二进制编码，BCD(二进制编码十进制)码就是二进制编码的十进制数。最常用的BCD码是8421BCD码。

它以4位二进制数为一组来表示一个十进制数。从左到右，4位二进制数的权重分别为8、4、2和1，可以组合成16种状态。这些10的数字从0到9的编码只需要0000 ~ 10065438。为了编码一个多位十进制数，需要有和十进制数一样多的4位二进制组，并按顺序分别编码。表1-4显示了8421BCD码和十进制数之间的对应关系。

表1-4 BCD码与十进制数的对应关系

③ Unicode编码

ASCII码提供128个字符，扩展的ASC码提供256个字符。但表示世界各国的文字编码还不够，需要更多的字符和含义，于是Unicode编码又出现了。

Unicode是16位编码，可以表示超过65000个字符或符号。目前，世界上各种语言中使用的字母或符号约有34000个，因此Unicode编码可用于任何语言。Unicode编码与流行的ASCII码完全兼容，两种码的前256个符号相同。

(3)汉字编码

汉字是象形文字，字数多(现代汉字常用字有六七千个，总字数五万多)，字体复杂。每个汉字都有“声、形、义”三要素，也有很多同音字和异体字，给汉字的计算机处理带来很大困难。要在计算机中处理汉字，必须解决以下几个问题:首先是汉字的输入，即如何将结构复杂的块状汉字输入计算机，这是汉字处理的关键；其次，如何在计算机中表示和存储汉字，如何兼容西文；最后，如何从电脑输出汉字的处理结果。因此，汉字必须编码，

即编码汉字。与上述汉字处理过程中的输入、内部处理和输出三个主要环节相对应，每个汉字的编码包括输入码、交换码、内部码和字形码。在计算机汉字信息处理系统中，处理汉字时要进行如下代码转换:输入码→交换码→内码→字形码。以上简述了汉字计算机处理的基本思路和过程，下面详细介绍汉字的四种编码。

①输入代码。

为了在计算机上使用现有的标准西文键盘输入汉字，需要设计汉字输入码。输入码也称为外码。目前已申请专利的汉字输入编码方案多达六七百种，新的输入法不断问世，以至于被誉为“万码奔腾”。根据不同的设计思想，这些众多的输入码可以分为四类:数字码、拼音码、字形码和音码。其中，拼音码和字形码是目前应用最广泛的。

A.数字编码:数字编码是等长的。

数字串是对汉字进行逐一编号的，这个数字作为汉字的输入码，如位置码、电XX等。这种编码的编码规则简单，容易与汉字的内码转换，但很难记忆，只适用于一些特定的部门。

B.拼音码:拼音码是基于汉字发音的输入码。拼音码使用简单，易学易普及。缺点是重复率高(因为汉字同音字多)，输入时经常需要屏幕选择，影响输入速度。拼音码是根据汉语拼音码输入的，所以输入汉字时要求发音标准，不能使用方言。拼音码特别适合对输入速度要求不太高的非专业入门人员。

c字形码:字形码是根据汉字的字形结构输入的一种编码。在微机上广泛使用的五笔字型码(王码)就是字型码的典型代表。吴彼字码的主要特点是输入速度快。目前最高纪录是每分钟293个汉字(这个纪录是由女兵XXXX保持的)，这样高的输入速度已经达到了。

人眼扫描的极限。但是这种输入法因为需要记字根和练习拼写，所以前期要花很多时间。另外，很少有难拆分的汉字，给出的编码也不符合汉字的书写习惯。

D.音码:音码是一种考虑到汉字读音和字体的输入码。目前广泛使用的音码是自然码。

②交换代码。

交换码用于汉字外码和内码的交换。我国在1988年颁布的《信息交换用汉字编码字符集基本集》(代号为GB 2312-1980)是交换码的国家标准，所以交换码也叫国标码。国标码是双字节码，即一个汉字码有两个字节，每个字节的最高位是“1”。国家标准GB2312—1980收录了6763个常用汉字(其中一级汉字3755个，按拼音顺序排列；有3008个二级汉字，按部首顺序)、其他字母和图形符号(如序号、数字、罗马数字、英文字母、日文假名和俄文字母)

和汉语拼音等。)，共计7445个字符。这7445个字符按照94行×94列排列在一起，形成GB2312—1980字符集编码表。表格中的每个汉字对应一个唯一的行号(称为区号)和列号(称为位置码)。汉字的国家代码值根据位置号确定，分别存储在两个字节中。由于篇幅所限，本书没有列出GB 2312-1980字符编码表。读者可以参考相关书籍。

③内码。

内码是汉字在计算机中的基本表示，是计算机用来识别、存储、处理和传输汉字的代码。内码也是双字节码，国标码的两个字节最高位设置为“1”，即转换成汉字的内码。计算机信息处理系统根据字符码的最高位是“1”还是“0”来区分汉字和ASCII字符。

④字体代码。

字体代码是表示汉字的字体信息(结构、形状、笔画等)的代码。)，这是用来

用计算机实现汉字的输出(显示和打印)。因为汉字是方块字，所以最常用的字码表示是点阵，包括16×16点阵，24×24点阵，48×48点阵。比如16×16点阵的含义是:有256个点(16× 16=256)来表示一个汉字的字体信息，每个点有“亮”或“关”两种状态，用一个二进制数“65438”。因此，存储一个16×16汉字需要256个二进制位和***32个字节(256位/8位)。以上点阵可以根据汉字输出的不同需求进行选择。点数越多，输出的汉字就越准确，越美观。汉字的字库点阵占用了大量的存储空间，通常以字库的形式存储在机器的外存储器中，需要时搜索字库输出相应的汉字字体。

；