中国计算机应用基础知识:汉字和字符编码
(1)计算机中的信息单元
单位位、字、字长和字节等。,这是用来表示计算机中信息大小的基本概念。
①位:计算机中数据存储的最小单位是二进制位,英文缩写为bit,音译为bit,可用小写字母B表示..
②字节:八位二进制位称为字节,在英语中可以用大写字母B来表示,是计算机存储的基本单位。八位二进制数的一个字节,其位数从左至右依次为b7,b6,b5,b4,b3,b2,b1,b0。在计算机中,经常用字节数来表示存储容量,可以用KB、MB、GB、TB来表示,它们之间的换算关系如下:
1KB = 210B = 1024 b
1MB = 210KB = 1024KB
1GB = 210MB = 1024 MB
1TB = 210GB = 1024 GB
③字符:计算机在存储、传输或操作时作为一个整体单元进行操作的一组二进制代码,称为一个计算机字符。
④字长:每个字包含的位数称为字长。因为字长是计算机一次能处理的二进制位数,它关系到计算机的数据处理速度,是衡量计算机性能的重要因素。
(2)字符的编码。
① ASCII码。
计算机只能识别二进制数,所以计算机中的数字、字母和符号也必须用二进制编码。编码方法有很多种。ASCII码(美国信息交换标准码)广泛应用于微型计算机。ASCII码已被国际标准化组织(ISO)接纳为国际标准,称为ISO-646。ASCII码有两种:7位版本和8位版本,7位版本是国际通用的ASCII码。7位版本的ASCII包含10个阿拉伯数字、52个英文大小写字母、32个标点符号和运算符、34个控制码,***128个字符,因此可以用7位二进制数表示。7位ASCII码字符如下图所示:
要确定一个数字、字母、符号或控制字符的ASCII码,我们可以先找到它在表中的位置,然后确定它对应的十进制值或二进制值。例如,小写字母“a”的ASCII码的十进制值为97,二进制值为110001b (b代表二进制数),如果换算成十六进制,其值为61H(H代表十六进制数)。从表中可以看出,数字0 ~ 9的ASCII码是30H~39H(后缀H表示十六进制数),大写字母A ~ Z的ASCII码是41h ~ 5ah,小写字母A ~ Z的ASCII码是61h ~ 7ah。字符大小的比较是看其ASCII码值的大小。
在表中,NUL,比利时,法国,法国,捷克,德国等。是控制字符,NUL代表空白,BEL代表报警,BS代表退格,LF代表换行,FF代表换页,CR代表回车,SP代表空格,DEL代表删除。
② BCD码。
计算机处理数字时,需要进行二进制和十进制之间的转换,也就是将十进制数进行二进制编码,BCD(二进制编码十进制)码就是二进制编码的十进制数。最常用的BCD码是8421BCD码。
它以4位二进制数为一组来表示一个十进制数。从左到右,4位二进制数的权重分别为8、4、2和1,可以组合成16种状态。这些10的数字从0到9的编码只需要0000 ~ 10065438。为了编码一个多位十进制数,需要有和十进制数一样多的4位二进制组,并按顺序分别编码。表1-4显示了8421BCD码和十进制数之间的对应关系。
表1-4 BCD码与十进制数的对应关系
③ Unicode编码
ASCII码提供128个字符,扩展的ASC码提供256个字符。但表示世界各国的文字编码还不够,需要更多的字符和含义,于是Unicode编码又出现了。
Unicode是16位编码,可以表示超过65000个字符或符号。目前,世界上各种语言中使用的字母或符号约有34000个,因此Unicode编码可用于任何语言。Unicode编码与流行的ASCII码完全兼容,两种码的前256个符号相同。
(3)汉字编码
汉字是象形文字,字数多(现代汉字常用字有六七千个,总字数五万多),字体复杂。每个汉字都有“声、形、义”三要素,也有很多同音字和异体字,给汉字的计算机处理带来很大困难。要在计算机中处理汉字,必须解决以下几个问题:首先是汉字的输入,即如何将结构复杂的块状汉字输入计算机,这是汉字处理的关键;其次,如何在计算机中表示和存储汉字,如何兼容西文;最后,如何从电脑输出汉字的处理结果。因此,汉字必须编码,
即编码汉字。与上述汉字处理过程中的输入、内部处理和输出三个主要环节相对应,每个汉字的编码包括输入码、交换码、内部码和字形码。在计算机汉字信息处理系统中,处理汉字时要进行如下代码转换:输入码→交换码→内码→字形码。以上简述了汉字计算机处理的基本思路和过程,下面详细介绍汉字的四种编码。
①输入代码。
为了在计算机上使用现有的标准西文键盘输入汉字,需要设计汉字输入码。输入码也称为外码。目前已申请专利的汉字输入编码方案多达六七百种,新的输入法不断问世,以至于被誉为“万码奔腾”。根据不同的设计思想,这些众多的输入码可以分为四类:数字码、拼音码、字形码和音码。其中,拼音码和字形码是目前应用最广泛的。
A.数字编码:数字编码是等长的。
数字串是对汉字进行逐一编号的,这个数字作为汉字的输入码,如位置码、电XX等。这种编码的编码规则简单,容易与汉字的内码转换,但很难记忆,只适用于一些特定的部门。
B.拼音码:拼音码是基于汉字发音的输入码。拼音码使用简单,易学易普及。缺点是重复率高(因为汉字同音字多),输入时经常需要屏幕选择,影响输入速度。拼音码是根据汉语拼音码输入的,所以输入汉字时要求发音标准,不能使用方言。拼音码特别适合对输入速度要求不太高的非专业入门人员。
c字形码:字形码是根据汉字的字形结构输入的一种编码。在微机上广泛使用的五笔字型码(王码)就是字型码的典型代表。吴彼字码的主要特点是输入速度快。目前最高纪录是每分钟293个汉字(这个纪录是由女兵XXXX保持的),这样高的输入速度已经达到了。
人眼扫描的极限。但是这种输入法因为需要记字根和练习拼写,所以前期要花很多时间。另外,很少有难拆分的汉字,给出的编码也不符合汉字的书写习惯。
D.音码:音码是一种考虑到汉字读音和字体的输入码。目前广泛使用的音码是自然码。
②交换代码。
交换码用于汉字外码和内码的交换。我国在1988年颁布的《信息交换用汉字编码字符集基本集》(代号为GB 2312-1980)是交换码的国家标准,所以交换码也叫国标码。国标码是双字节码,即一个汉字码有两个字节,每个字节的最高位是“1”。国家标准GB2312—1980收录了6763个常用汉字(其中一级汉字3755个,按拼音顺序排列;有3008个二级汉字,按部首顺序)、其他字母和图形符号(如序号、数字、罗马数字、英文字母、日文假名和俄文字母)
和汉语拼音等。),共计7445个字符。这7445个字符按照94行×94列排列在一起,形成GB2312—1980字符集编码表。表格中的每个汉字对应一个唯一的行号(称为区号)和列号(称为位置码)。汉字的国家代码值根据位置号确定,分别存储在两个字节中。由于篇幅所限,本书没有列出GB 2312-1980字符编码表。读者可以参考相关书籍。
③内码。
内码是汉字在计算机中的基本表示,是计算机用来识别、存储、处理和传输汉字的代码。内码也是双字节码,国标码的两个字节最高位设置为“1”,即转换成汉字的内码。计算机信息处理系统根据字符码的最高位是“1”还是“0”来区分汉字和ASCII字符。
④字体代码。
字体代码是表示汉字的字体信息(结构、形状、笔画等)的代码。),这是用来
用计算机实现汉字的输出(显示和打印)。因为汉字是方块字,所以最常用的字码表示是点阵,包括16×16点阵,24×24点阵,48×48点阵。比如16×16点阵的含义是:有256个点(16× 16=256)来表示一个汉字的字体信息,每个点有“亮”或“关”两种状态,用一个二进制数“65438”。因此,存储一个16×16汉字需要256个二进制位和***32个字节(256位/8位)。以上点阵可以根据汉字输出的不同需求进行选择。点数越多,输出的汉字就越准确,越美观。汉字的字库点阵占用了大量的存储空间,通常以字库的形式存储在机器的外存储器中,需要时搜索字库输出相应的汉字字体。
;