汉字编码一般分为哪几类

根证书2023-02-03 22

汉字编码分为如下几类

（1）汉字输入码，简称外码，其作用是将汉字信息输入到计算机内部；

（2）汉字交换码，其作用是在汉字信息系统之间进行汉字交换时所使用的编码；

（3）汉字内码，其作用是信息处理系统内部存储、处理、传输汉字而使用的编码；

（4）汉字字形码，其作用是表示汉字字形信息的编码，在显示或打印的时候使用；

参考资料：《大学计算机-计算思维导论》，清华大学出版社2019

1、在UTF－8中，字符是以8位序列来编码的，用一个或几个字节来表示一个字符。这种方式的最大好处，是UTF－8保留了ASCII字符的编码做为它的一部分。UTF－8 编码是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24位（三个字节）来编码。

对于英文字符较多的论坛则用UTF－8 节省空间。另外，如果是外国人访问你的GBK网页，需要下载中文语言包支持。访问UTF-8编码的网页则不出现这问题。可以直接访问。

2、UTF-16以16位为单元对UCS进行编码。对于小于0x10000的UCS码，UTF-16编码就等于UCS码对应的16位无符号整数。

3、GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准（好像还不是国家标准）。GBK编码专门用来解决中文编码的，是双字节的。不论中英文都是双字节的。

扩展资料：

网页编写用那种好，如果你主要做中文程序的开发，客户也主要是中国人的话就用GBK吧，因为UTF-8编码的中文使用了三个字节，用GBK节省了空间。如果做英文网站开发，还是用utf-8吧，因为utf-8中英文只占一个字节。GBK中英文也是两个字节的，并且国外客户访问GBK要下载语言包。

参考资料：百度百科-GBK字库

百度百科-UTF-16

1、收录不同：GB2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；GBK共收入21886个汉字和图形符号。

2、表示不同：GB2312对任意一个图形字符都采用两个字节表示，并对所收汉字进行了“分区”处理，每区含有94个汉字／符号，分别对应第一字节和第二字节。GBK采用双字节表示，总体编码范围为8140-FEFE之间，首字节在81-FE之间，尾字节在40-FE之间。

3、处理功能不同：对于人名、古汉语等方面出现的罕用字，GB2312不能处理，这导致了后来GBK 及GB18030 汉字字符集的出现。

扩展资料

汉字编码的困难原因：

1、数量庞大：一般认为，汉字总数已超过6万个（包括简化字）。虽有研究者主张规定3000多或4000字作为当代通用汉字，但仍比处理由二三十个字母组成的拼音文字要困难得多。

2、字形复杂：有古体今体，繁体简体，正体异体；而且笔画相差悬殊，少的一笔，多的达36笔，简化后平均为9.8笔。

参考资料

百度百科-GBK

百度百科-GB2312

转载请注明原文地址:https://juke.outofmemory.cn/read/2888395.html

汉字