字符

  • 字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。

字符集

  • 字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同。

ASCII

  • AASCII(American Standard Code for Information Interchange,美国信息互换标准编码)是基于罗马字母表的一套电脑编码系统。可称之为“美标”。
  • 美标规定了用从0到127的128个数字来代表信息的规范编码,其中包括33个控制码,一个空格码,和94个形象码。其中32到126是可打印字符。
  • 由于一个字符大都是用一个八位数的二进制数字表示,这样就有256不同的数值。但是美标只规定了128个,剩下的128数码没有做规范,所以各个厂商用的都不一样。33个控制码也不尽相同。所以在处理文件的时候,文件会被分为两类。
    • 第一类文件中每一个字都是美标形象码或空格码。这类文件称为“美标文本文件”(ASCII Text Files),或略为“文本文件”,通常可在不同电脑系统间直接交换。
    • 第二类文件,也就是含有控制码或非美标码的文件,通常不能在不同电脑系统间直接交换。这类文件有一个通称,叫“二进制文件”(Binary Files)。

国标

  • 中华人民共和国国家标准,简称国标,是包括语编码系统的国家标准码。
  • 强制标准冠以“GB”。推荐标准冠以“GB/T”。
  • 常用是GBK。
    • GBK向下与GB-2312编码兼容,向上支持ISO 10646.1国际标准,是前者向后者过渡的一个承启标准。
标准号 名称 别名 汉字数 备注
GB 2312-80 信息交换用汉字编码字符集 基本集 GB /GB0 6763 GB 6345.1-86 等字模集有附录对 GB 2312-80 之修订,但 GB 2312 本身一直未有更新
GB/T 7589-87 信息交换用汉字编码字符集 第二辅助集 GB2 7237 向 ISO 10646 提交时使用繁体字版本
GB/T 7590-87 信息交换用汉字编码字符集 第四辅助集 GB4 7039 向 ISO 10646 提交时使用繁体字版本
GB 8565.2-88 信息处理文本通讯用编码字符集 第二部分 636 主要用于电讯;GB2汉字520个、GB4汉字92个、来自《第一批异体字整理表》之异体字23个及“啰”字。此字符集补充了 GB 2312,使之能包括整个《现代汉语通用字表》
GB/T 12345-90 信息交换用汉字编码字符集 第一辅助集 GB1 6866 GB 2312 繁体版,增补103字
GB 13131-91 信息交换用汉字编码字符集 第三辅助集 GB3 7237 GB/T 7589 繁体版
GB 13132-91 信息交换用汉字编码字符集 第五辅助集 GB5 7039 GB/T 7590 繁体版
ISO-IR-165 通讯用中文多字节字符集 8464 集合 GB 2312-80(包括 GB 6345.1-86 新增之字符及调整)及 GB 8565.2-88
GB 13000.1-93 信息技术 通用多八位编码字符集(UCS)第一部分 20902 另有302个兼容汉字(当中十二个:U+FA0E, U+FA0F, U+FA11, U+FA13, U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29 有独立形音义,统一码联盟建议不要视之为兼容汉字
GBK 汉字扩展内码规范 21003 除了来自 ISO 10646-1 / GB 13000.1 之20902字,另有 ISO 10646-1 / GB 13000.1 中21个兼容汉字(包括上述十二个有独立形音义兼容字),以方便和 Big5、CNS11643、JIS 及 IBM 文件双向转换、未收入 ISO 10646 的《简化字总表》汉字52个、《康熙字典》及《辞海》汉字部件28个;后80字暂时对应 Unicode 编码之私人使用区(Private Use Area),新版 Unicode 已全部收纳。Microsoft Code Page 936 收入21个兼容汉字,未收后80字
GB/T 15564-1995 图文电视广播用汉字编码字符集 香港子集 111 所有字皆来自 GB 13000.1
GB/T 16500-1998 信息交换用汉字编码字符集 第七辅助集 3778 其他 GB 未收录之 GB13000.1 汉字
GB 18030-2005 信息技术 中文编码字符集 70244 首版本 GB 18030-2000

BIG5

  • 又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五家软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立,故称大五码。
  • Big5码的产生,是因为当时台湾不同厂商各自推出不同的编码,如倚天码、IBM PS55、王安码等,彼此不能兼容;另一方面,台湾政府当时尚未推出官方的汉字编码,而中国大陆的GB2312编码亦未有收录繁体中文字。
  • Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字:“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。

Unicode

  • Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字符集的简称,是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统,支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发,1994年正式公布,最新版本是2019年5月7日的Unicode 12.1.0。
  • Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

UTF-8 编码

  • UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Tranformation Format,即把Unicode转做某种格式的意思。
  • UTF-8使用可变长度字节来储存 Unicode字符,例如ASCII字母继续使用1字节储存,重音文字、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。辅助平面字符则使用4字节。

HZ码

  • HZ 码是中国留学生为了使汉字信息能在网络上直接传送而产生的。因目前大多数 (西方)网络系统为7位,最高位被屏蔽掉,因此 GB 码无法被直接传输,HZ 码是为了达到在7位网络系统中直接传递汉字信息的目的而规范的。
  • “HZ”方案的特点,是以“纯国标”的中文与美标码混用。那么“HZ”是怎样区分国标符和美标符的呢?答案其实也很简单:当一串美标码中间插入一段国标码的时候,我们便在国标码的前面加上,后面加上。这些附加码分别叫“逃出码”和“逃入码”。 由于这些附加码本身也是美标形象码,整个文件就俨然是一个美标文本文件,可以安然地 在电脑网上传递,也和大部分英文文本处理软件兼容。

CJK码

  • ISO-2022是国际标准组织(ISO)为各种语言字符制定的编码标准。采用二个字节编码,其中汉语编码称ISO-2022 CN,日语、韩语的编码分别称JP、KR。一般将三者合称CJK码。CJK码主要在Internet网络中使用。

ISO

  • 1993年,国际标准ISO10646 定义了通用字符集(Universal Character Set, UCS)。 UCS 是所有其他字符集标准的一个超集。它保证与其他字符集是双向兼容的。就是说, 如果你将任何文本字符串翻译到 UCS格式,然后再翻译回原编码, 你不会丢失任何信息。