一个汉字的机内码需用几个字节存储

一个汉字的机内码需用几个字节存储,第1张

一个汉字的机内码需用2个字节存储。

我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码,其编码原则为:汉字用两个字节表示。

原则上,两个字节可以表示 256×256=65536 种不同的符号,作为汉字编码表示的基础是可行的。但考虑到汉字编码与其它国际通用编码,如ASCII 西文字符编码的关系,我国国家标准局采用了加以修正的两字节汉字编码方案,只用了两个字节的低7位。

这个方案可以容纳 128×128=16384 种不同的汉字,但为了与标准ASCII码兼容,每个字节中都不能再用32个控制功能码和码值为32的空格以及127的操作码。所以每个字节只能有94个编码。这样,双七位实际能够表示的字数是:94×94=8836个。

扩展资料:

机内码的相关规定:

国家标准局颁布的《信息交换用汉字编码字符集基本集》(代号为GB2312-80)规定的汉字交换码作为国家标准汉字编码。

GB2312-80中共有7445个字符符号:汉字符号6763个一级汉字3755个(按汉语拼音字母顺序排列)二级汉字3008个(按部首笔划顺序排列)非汉字符号682个GB2312-80规定,键盘是当前微机的主要输入设备,输入码就是使用英文键盘输入汉字时的编码。

目前,我国已推出的输入码有数百种,但用户使用较多的约为十几种,按输入码编码的主要依据,大体可分为顺序码、音码、形码、音形码四类,如“保”字,用全拼,输入码为“BAO”,用区位码,输入码为“1703”,用五笔字型则为“WKS”。

参考资料来源:百度百科-机内码

保存一个汉字的区位码要占用两个字节,区号、位号各占一个字节。区号、位号都不超过94,所以这两个字节的最高位仍然是“0”。为了避免汉字区位与ASCII码无法区分,汉字在计算机内的保存采用了机内码,也称汉字的内码。目前占主导地位的汉字机内码是将区码和位码分别加上数AOH作为机内码。如“啊”字的区位码的十六进制表示为1001H,而“啊”字的机内码则为 BOAIH。这样汉字机内码的两个字节的最高位均为“1”,很容易与西文的ASCII码区分。以GB2312——80国家标准制定的汉字机内码也称为GB2312码。它和国标区位码的换算关系是:

机内码=区位码+A0A0H

像英文字符一样,汉字在排序时所依据的大小关系也是根据它的编码的大小来确定的,即分在不同区里的汉字由机内码的第1字节决定大小,在同一区中的汉字由第2字节的大小来决定。由于汉字的内码都大于128,所以汉字无论是高位内码还是低位内码都大于ASCII码(仅对GB2312码而言)。

需要说明的是,在我国的台湾省,目前广泛使用的是“大五码(BIG—5)”,对于这种内码,一个汉字也是两个字节表示,共表示了13053个汉字

汉字机内码和字形码,也顺带混淆了汉字的存储与字模的存储。汉字的存储其实是汉字机内码的存储,目前1个汉字要用2个字节来存放。

而汉字的输出(显示、打印)则要依赖于字形码,每一个汉字的字形都必须预先存放在计算机内,称为字形信息库,简称字库。

在输出汉字时,计算机要根据机内码找到对应的字形码,然后根据字形码到字库中去找到它的字形描述信息,最后再把字形送去输出。目前汉字字形的产生方式大多是用点阵方式形成汉字。

即是用点阵表示的汉字字形代码,因此字模所占用的存储空间与其所采用的点阵有关,点阵越大,所占存储空间越大,而存储1个汉字却始终只要2个字节。

汉字机内码指计算机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。例如“保”字的机内码就是B1A3H。

扩展资料

途径

汉字进入计算机的三种途径分别为:

1、机器自动识别汉字:计算机通过"视觉"装置(光学字符阅读器或其他),用光电扫描等方法识别汉字。

2、通过语音识别输入:计算机利用人们给它配备的"听觉器官",自动辨别汉语语音要素,从不同的音节中找出不同的汉字,或从相同音节中判断出不同汉字。

3、通过汉字编码输入:根据一定的编码方法,由人借助输入设备将汉字输入计算机。

机内码与国际码之间的换算关系:

国际码=区位码(十六进制)+2020H

机内码=国际码+8080H

机内码、国际码是十六进制的,但是区位码是十进制的。一般换算全部用十六进制,值得特别注意:区位码从十进制转换为十六进制是两位两位分别转换的。

汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变。

如:“保”字的国标码为3123H,前字节为00110001B,后字节为00100011B,高位改1为10110001B和10100011B 即为B1A3H,因此,保字的机内码就是B1A3H。

扩展资料:

国标码(“国标”是中华人民共和国国家标准的简称)在中国大陆使用。GB2312收录6763个汉字,GBK收录20912个汉字,最新的GB18030收录27533个汉字。BIG5码。收录13053个汉字。在台湾和香港使用的一字节或两字节编码。

Unicode并不被中国政府很好的接受。中国政府要求在中国大陆出售的软件必须支持GB18030编码。在国际通信化和软件设计领域,CJK编码收集了汉语、日语、韩语中的汉字集。

国标码并不等于区位码,它是由区位码稍作转换得到,其转换方法为:先将十进制区码和位码转换为十六进制的区码和位码,;这样就得了一个与国标码有一个相对位置差的代码,再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码。

参考资料:

百度百科—机内码

参考资料:

百度百科—国际码

以上就是关于一个汉字的机内码需用几个字节存储全部的内容,包括:一个汉字的机内码需用几个字节存储、在电子计算机内关于汉字的机内码介绍、汉字的机内码和字形码是怎样联系的等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:聚客百科

原文地址: http://juke.outofmemory.cn/life/3783743.html

()
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-03
下一篇 2023-05-03

发表评论

登录后才能评论

评论列表(0条)

保存