一个汉字的机内码需用几个字节存储

令狐冲扮演者2023-05-03 73

一个汉字的机内码需用2个字节存储。

我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》，代号为GB2312-80，共对6763个汉字和682个图形字符进行了编码，其编码原则为：汉字用两个字节表示。

原则上，两个字节可以表示 256×256=65536 种不同的符号，作为汉字编码表示的基础是可行的。但考虑到汉字编码与其它国际通用编码，如ASCII 西文字符编码的关系，我国国家标准局采用了加以修正的两字节汉字编码方案，只用了两个字节的低7位。

这个方案可以容纳 128×128=16384 种不同的汉字，但为了与标准ASCII码兼容，每个字节中都不能再用32个控制功能码和码值为32的空格以及127的操作码。所以每个字节只能有94个编码。这样，双七位实际能够表示的字数是：94×94=8836个。

扩展资料：

机内码的相关规定：

国家标准局颁布的《信息交换用汉字编码字符集基本集》（代号为GB2312-80）规定的汉字交换码作为国家标准汉字编码。

GB2312-80中共有7445个字符符号：汉字符号6763个一级汉字3755个（按汉语拼音字母顺序排列）二级汉字3008个（按部首笔划顺序排列）非汉字符号682个GB2312-80规定，键盘是当前微机的主要输入设备，输入码就是使用英文键盘输入汉字时的编码。

目前，我国已推出的输入码有数百种，但用户使用较多的约为十几种，按输入码编码的主要依据，大体可分为顺序码、音码、形码、音形码四类，如“保”字，用全拼，输入码为“BAO”，用区位码，输入码为“1703”，用五笔字型则为“WKS”。

参考资料来源：百度百科-机内码

保存一个汉字的区位码要占用两个字节，区号、位号各占一个字节。区号、位号都不超过94，所以这两个字节的最高位仍然是“0”。为了避免汉字区位与ASCII码无法区分，汉字在计算机内的保存采用了机内码，也称汉字的内码。目前占主导地位的汉字机内码是将区码和位码分别加上数AOH作为机内码。如“啊”字的区位码的十六进制表示为1001H，而“啊”字的机内码则为 BOAIH。这样汉字机内码的两个字节的最高位均为“1”，很容易与西文的ASCII码区分。以GB2312——80国家标准制定的汉字机内码也称为GB2312码。它和国标区位码的换算关系是：

机内码＝区位码＋A0A0H

像英文字符一样，汉字在排序时所依据的大小关系也是根据它的编码的大小来确定的，即分在不同区里的汉字由机内码的第1字节决定大小，在同一区中的汉字由第2字节的大小来决定。由于汉字的内码都大于128，所以汉字无论是高位内码还是低位内码都大于ASCII码（仅对GB2312码而言）。

需要说明的是，在我国的台湾省，目前广泛使用的是“大五码（BIG—5）”，对于这种内码，一个汉字也是两个字节表示，共表示了13053个汉字

汉字机内码和字形码，也顺带混淆了汉字的存储与字模的存储。汉字的存储其实是汉字机内码的存储，目前1个汉字要用2个字节来存放。

而汉字的输出（显示、打印）则要依赖于字形码，每一个汉字的字形都必须预先存放在计算机内，称为字形信息库，简称字库。

在输出汉字时，计算机要根据机内码找到对应的字形码，然后根据字形码到字库中去找到它的字形描述信息，最后再把字形送去输出。目前汉字字形的产生方式大多是用点阵方式形成汉字。

即是用点阵表示的汉字字形代码，因此字模所占用的存储空间与其所采用的点阵有关，点阵越大，所占存储空间越大，而存储1个汉字却始终只要2个字节。

汉字机内码指计算机内部存储，处理加工和传输汉字时所用的由0和1符号组成的代码。例如“保”字的机内码就是B1A3H。

扩展资料

途径

汉字进入计算机的三种途径分别为：

1、机器自动识别汉字：计算机通过＂视觉＂装置（光学字符阅读器或其他），用光电扫描等方法识别汉字。

2、通过语音识别输入：计算机利用人们给它配备的＂听觉器官＂，自动辨别汉语语音要素，从不同的音节中找出不同的汉字，或从相同音节中判断出不同汉字。

3、通过汉字编码输入：根据一定的编码方法，由人借助输入设备将汉字输入计算机。

机内码与国际码之间的换算关系：

国际码=区位码（十六进制）+2020H

机内码=国际码+8080H

机内码、国际码是十六进制的，但是区位码是十进制的。一般换算全部用十六进制，值得特别注意：区位码从十进制转换为十六进制是两位两位分别转换的。

汉字的机内码采用变形国标码，其变换方法为：将国标码的每个字节都加上128，即将两个字节的最高位由0改1，其余7位不变。

如：“保”字的国标码为3123H，前字节为00110001B，后字节为00100011B，高位改1为10110001B和10100011B 即为B1A3H，因此，保字的机内码就是B1A3H。

扩展资料：

国标码（“国标”是中华人民共和国国家标准的简称）在中国大陆使用。GB2312收录6763个汉字，GBK收录20912个汉字，最新的GB18030收录27533个汉字。BIG5码。收录13053个汉字。在台湾和香港使用的一字节或两字节编码。

Unicode并不被中国政府很好的接受。中国政府要求在中国大陆出售的软件必须支持GB18030编码。在国际通信化和软件设计领域，CJK编码收集了汉语、日语、韩语中的汉字集。

国标码并不等于区位码，它是由区位码稍作转换得到,其转换方法为：先将十进制区码和位码转换为十六进制的区码和位码，;这样就得了一个与国标码有一个相对位置差的代码，再将这个代码的第一个字节和第二个字节分别加上20H，就得到国标码。

参考资料：

百度百科—机内码

参考资料：

百度百科—国际码

以上就是关于一个汉字的机内码需用几个字节存储全部的内容，包括:一个汉字的机内码需用几个字节存储、在电子计算机内关于汉字的机内码介绍、汉字的机内码和字形码是怎样联系的等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

转载请注明原文地址:https://juke.outofmemory.cn/read/3783743.html

00 生成海报

一个汉字的机内码需用几个字节存储

汉字

内码

字节

字形

国标

历史上有几个田文

六个字母的英文单词有哪些