字符集

发表于2021-04-13|更新于2021-04-13

|阅读量:

字符

字符（Character）是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。

字符集

字符集（Character set）是多个字符的集合，字符集种类较多，每个字符集包含的字符个数不同。

ASCII

AASCII（American Standard Code for Information Interchange，美国信息互换标准编码）是基于罗马字母表的一套电脑编码系统。可称之为“美标”。
美标规定了用从0到127的128个数字来代表信息的规范编码，其中包括33个控制码，一个空格码，和94个形象码。其中32到126是可打印字符。
由于一个字符大都是用一个八位数的二进制数字表示，这样就有256不同的数值。但是美标只规定了128个，剩下的128数码没有做规范，所以各个厂商用的都不一样。33个控制码也不尽相同。所以在处理文件的时候，文件会被分为两类。
- 第一类文件中每一个字都是美标形象码或空格码。这类文件称为“美标文本文件”(ASCII Text Files)，或略为“文本文件”，通常可在不同电脑系统间直接交换。
- 第二类文件，也就是含有控制码或非美标码的文件，通常不能在不同电脑系统间直接交换。这类文件有一个通称，叫“二进制文件”(Binary Files)。

国标

中华人民共和国国家标准，简称国标，是包括语编码系统的国家标准码。
强制标准冠以“GB”。推荐标准冠以“GB/T”。
常用是GBK。
- GBK向下与GB-2312编码兼容，向上支持ISO 10646.1国际标准，是前者向后者过渡的一个承启标准。

标准号	名称	别名	汉字数	备注
GB 2312-80	信息交换用汉字编码字符集基本集	GB /GB0	6763	GB 6345.1-86 等字模集有附录对 GB 2312-80 之修订，但 GB 2312 本身一直未有更新
GB/T 7589-87	信息交换用汉字编码字符集第二辅助集	GB2	7237	向 ISO 10646 提交时使用繁体字版本
GB/T 7590-87	信息交换用汉字编码字符集第四辅助集	GB4	7039	向 ISO 10646 提交时使用繁体字版本
GB 8565.2-88	信息处理文本通讯用编码字符集第二部分	无	636	主要用于电讯；GB2汉字520个、GB4汉字92个、来自《第一批异体字整理表》之异体字23个及“啰”字。此字符集补充了 GB 2312，使之能包括整个《现代汉语通用字表》
GB/T 12345-90	信息交换用汉字编码字符集第一辅助集	GB1	6866	GB 2312 繁体版，增补103字
GB 13131-91	信息交换用汉字编码字符集第三辅助集	GB3	7237	GB/T 7589 繁体版
GB 13132-91	信息交换用汉字编码字符集第五辅助集	GB5	7039	GB/T 7590 繁体版
ISO-IR-165	通讯用中文多字节字符集		8464	集合 GB 2312-80（包括 GB 6345.1-86 新增之字符及调整）及 GB 8565.2-88
GB 13000.1-93	信息技术通用多八位编码字符集（UCS）第一部分		20902	另有302个兼容汉字（当中十二个：U+FA0E, U+FA0F, U+FA11, U+FA13, U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29 有独立形音义，统一码联盟建议不要视之为兼容汉字
GBK	汉字扩展内码规范		21003	除了来自 ISO 10646-1 / GB 13000.1 之20902字，另有 ISO 10646-1 / GB 13000.1 中21个兼容汉字（包括上述十二个有独立形音义兼容字），以方便和 Big5、CNS11643、JIS 及 IBM 文件双向转换、未收入 ISO 10646 的《简化字总表》汉字52个、《康熙字典》及《辞海》汉字部件28个；后80字暂时对应 Unicode 编码之私人使用区（Private Use Area），新版 Unicode 已全部收纳。Microsoft Code Page 936 收入21个兼容汉字，未收后80字
GB/T 15564-1995	图文电视广播用汉字编码字符集香港子集		111	所有字皆来自 GB 13000.1
GB/T 16500-1998	信息交换用汉字编码字符集第七辅助集		3778	其他 GB 未收录之 GB13000.1 汉字
GB 18030-2005	信息技术中文编码字符集		70244	首版本 GB 18030-2000

BIG5

又称大五码或五大码，1984年由台湾财团法人信息工业策进会和五家软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立，故称大五码。
Big5码的产生，是因为当时台湾不同厂商各自推出不同的编码，如倚天码、IBM PS55、王安码等，彼此不能兼容；另一方面，台湾政府当时尚未推出官方的汉字编码，而中国大陆的GB2312编码亦未有收录繁体中文字。
Big5字符集共收录13,053个中文字，该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字：“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。

Unicode

Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字符集的简称，是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统，支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发，1994年正式公布，最新版本是2019年5月7日的Unicode 12.1.0。
Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

UTF-8 编码

UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Tranformation Format，即把Unicode转做某种格式的意思。
UTF-8使用可变长度字节来储存 Unicode字符，例如ASCII字母继续使用1字节储存，重音文字、希腊字母或西里尔字母等使用2字节来储存，而常用的汉字就要使用3字节。辅助平面字符则使用4字节。

HZ码

HZ 码是中国留学生为了使汉字信息能在网络上直接传送而产生的。因目前大多数（西方）网络系统为7位，最高位被屏蔽掉，因此 GB 码无法被直接传输，HZ 码是为了达到在7位网络系统中直接传递汉字信息的目的而规范的。
“HZ”方案的特点，是以“纯国标”的中文与美标码混用。那么“HZ”是怎样区分国标符和美标符的呢？答案其实也很简单：当一串美标码中间插入一段国标码的时候，我们便在国标码的前面加上~~，后面加上~~。这些附加码分别叫“逃出码”和“逃入码”。由于这些附加码本身也是美标形象码，整个文件就俨然是一个美标文本文件，可以安然地在电脑网上传递，也和大部分英文文本处理软件兼容。

CJK码

ISO-2022是国际标准组织（ISO）为各种语言字符制定的编码标准。采用二个字节编码，其中汉语编码称ISO-2022 CN，日语、韩语的编码分别称JP、KR。一般将三者合称CJK码。CJK码主要在Internet网络中使用。

ISO

1993年，国际标准ISO10646 定义了通用字符集(Universal Character Set, UCS)。 UCS 是所有其他字符集标准的一个超集。它保证与其他字符集是双向兼容的。就是说，如果你将任何文本字符串翻译到 UCS格式，然后再翻译回原编码, 你不会丢失任何信息。

文章作者: snmlm

文章链接: https://snmlm.github.io/system/20210413/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 snmlm！

相关推荐

用户态和内核态

本地搜索

由 hexo-generator-search 提供支持