字符
- 字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。
字符集
- 字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同。
ASCII
- AASCII(American Standard Code for Information Interchange,美国信息互换标准编码)是基于罗马字母表的一套电脑编码系统。可称之为“美标”。
- 美标规定了用从0到127的128个数字来代表信息的规范编码,其中包括33个控制码,一个空格码,和94个形象码。其中32到126是可打印字符。
- 由于一个字符大都是用一个八位数的二进制数字表示,这样就有256不同的数值。但是美标只规定了128个,剩下的128数码没有做规范,所以各个厂商用的都不一样。33个控制码也不尽相同。所以在处理文件的时候,文件会被分为两类。
- 第一类文件中每一个字都是美标形象码或空格码。这类文件称为“美标文本文件”(ASCII Text Files),或略为“文本文件”,通常可在不同电脑系统间直接交换。
- 第二类文件,也就是含有控制码或非美标码的文件,通常不能在不同电脑系统间直接交换。这类文件有一个通称,叫“二进制文件”(Binary Files)。
国标
- 中华人民共和国国家标准,简称国标,是包括语编码系统的国家标准码。
- 强制标准冠以“GB”。推荐标准冠以“GB/T”。
- 常用是GBK。
- GBK向下与GB-2312编码兼容,向上支持ISO 10646.1国际标准,是前者向后者过渡的一个承启标准。
标准号 | 名称 | 别名 | 汉字数 | 备注 |
---|---|---|---|---|
GB 2312-80 | 信息交换用汉字编码字符集 基本集 | GB /GB0 | 6763 | GB 6345.1-86 等字模集有附录对 GB 2312-80 之修订,但 GB 2312 本身一直未有更新 |
GB/T 7589-87 | 信息交换用汉字编码字符集 第二辅助集 | GB2 | 7237 | 向 ISO 10646 提交时使用繁体字版本 |
GB/T 7590-87 | 信息交换用汉字编码字符集 第四辅助集 | GB4 | 7039 | 向 ISO 10646 提交时使用繁体字版本 |
GB 8565.2-88 | 信息处理文本通讯用编码字符集 第二部分 | 无 | 636 | 主要用于电讯;GB2汉字520个、GB4汉字92个、来自《第一批异体字整理表》之异体字23个及“啰”字。此字符集补充了 GB 2312,使之能包括整个《现代汉语通用字表》 |
GB/T 12345-90 | 信息交换用汉字编码字符集 第一辅助集 | GB1 | 6866 | GB 2312 繁体版,增补103字 |
GB 13131-91 | 信息交换用汉字编码字符集 第三辅助集 | GB3 | 7237 | GB/T 7589 繁体版 |
GB 13132-91 | 信息交换用汉字编码字符集 第五辅助集 | GB5 | 7039 | GB/T 7590 繁体版 |
ISO-IR-165 | 通讯用中文多字节字符集 | 8464 | 集合 GB 2312-80(包括 GB 6345.1-86 新增之字符及调整)及 GB 8565.2-88 | |
GB 13000.1-93 | 信息技术 通用多八位编码字符集(UCS)第一部分 | 20902 | 另有302个兼容汉字(当中十二个:U+FA0E, U+FA0F, U+FA11, U+FA13, U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29 有独立形音义,统一码联盟建议不要视之为兼容汉字 | |
GBK | 汉字扩展内码规范 | 21003 | 除了来自 ISO 10646-1 / GB 13000.1 之20902字,另有 ISO 10646-1 / GB 13000.1 中21个兼容汉字(包括上述十二个有独立形音义兼容字),以方便和 Big5、CNS11643、JIS 及 IBM 文件双向转换、未收入 ISO 10646 的《简化字总表》汉字52个、《康熙字典》及《辞海》汉字部件28个;后80字暂时对应 Unicode 编码之私人使用区(Private Use Area),新版 Unicode 已全部收纳。Microsoft Code Page 936 收入21个兼容汉字,未收后80字 | |
GB/T 15564-1995 | 图文电视广播用汉字编码字符集 香港子集 | 111 | 所有字皆来自 GB 13000.1 | |
GB/T 16500-1998 | 信息交换用汉字编码字符集 第七辅助集 | 3778 | 其他 GB 未收录之 GB13000.1 汉字 | |
GB 18030-2005 | 信息技术 中文编码字符集 | 70244 | 首版本 GB 18030-2000 |
BIG5
- 又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五家软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立,故称大五码。
- Big5码的产生,是因为当时台湾不同厂商各自推出不同的编码,如倚天码、IBM PS55、王安码等,彼此不能兼容;另一方面,台湾政府当时尚未推出官方的汉字编码,而中国大陆的GB2312编码亦未有收录繁体中文字。
- Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字:“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。
Unicode
- Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字符集的简称,是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统,支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发,1994年正式公布,最新版本是2019年5月7日的Unicode 12.1.0。
- Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
UTF-8 编码
- UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Tranformation Format,即把Unicode转做某种格式的意思。
- UTF-8使用可变长度字节来储存 Unicode字符,例如ASCII字母继续使用1字节储存,重音文字、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。辅助平面字符则使用4字节。
HZ码
- HZ 码是中国留学生为了使汉字信息能在网络上直接传送而产生的。因目前大多数 (西方)网络系统为7位,最高位被屏蔽掉,因此 GB 码无法被直接传输,HZ 码是为了达到在7位网络系统中直接传递汉字信息的目的而规范的。
- “HZ”方案的特点,是以“纯国标”的中文与美标码混用。那么“HZ”是怎样区分国标符和美标符的呢?答案其实也很简单:当一串美标码中间插入一段国标码的时候,我们便在国标码的前面加上
,后面加上。这些附加码分别叫“逃出码”和“逃入码”。 由于这些附加码本身也是美标形象码,整个文件就俨然是一个美标文本文件,可以安然地 在电脑网上传递,也和大部分英文文本处理软件兼容。
CJK码
- ISO-2022是国际标准组织(ISO)为各种语言字符制定的编码标准。采用二个字节编码,其中汉语编码称ISO-2022 CN,日语、韩语的编码分别称JP、KR。一般将三者合称CJK码。CJK码主要在Internet网络中使用。
ISO
- 1993年,国际标准ISO10646 定义了通用字符集(Universal Character Set, UCS)。 UCS 是所有其他字符集标准的一个超集。它保证与其他字符集是双向兼容的。就是说, 如果你将任何文本字符串翻译到 UCS格式,然后再翻译回原编码, 你不会丢失任何信息。