HTML 字符编码 - 易学教程，面试笔记经验！

字符编码是将字节转换为字符的方法。为了正确验证或显示 HTML 文档，程序必须选择正确的字符编码。

计算机上最常用的字符集或字符编码是 ASCII - 美国信息交换标准代码，并且此可能是电子编码文本中使用最广泛的字符集。

ASCII 编码仅支持大小写拉丁字母、数字 0-9 以及一些额外字符，总共 128 个字符全部。您可以查看完整的可打印 ASCII 字符

但是，许多语言使用带重音的拉丁字符或完全不同的字母。 ASCII 不处理这些字符；因此，如果您想使用任何非 ASCII 字符，您需要了解字符编码。

国际标准组织创建了一系列字符集来处理不同的国家字符。对于英语和大多数其他西欧语言的文档，使用广泛支持的编码 ISO-8859-1。

以下是世界各地使用的字符集列表及其说明。

序号	字符设置和说明
1	ISO-8859-1 拉丁字母第 1 部分覆盖北美、西欧、拉丁美洲、加勒比、加拿大、非洲
2	ISO-8859-2 拉丁字母第 2 部分覆盖东欧
3	ISO-8859-3 拉丁字母第 3 部分覆盖东南欧、世界语、其他杂项
4	ISO-8859-4 拉丁字母第 4 部分覆盖斯堪的纳维亚/波罗的海（以及 ISO-8859-1 之外的其他地区）
5	ISO-8859-5 拉丁/西里尔字母第 5 部分
6	ISO-8859-6 拉丁/阿拉伯字母第 6 部分
7	ISO-8859-7 拉丁/希腊字母第 7 部分
8	ISO-8859-8 拉丁/希伯来字母第 8 部分
9	ISO-8859-9 拉丁 5 字母表第 9 部分与 ISO-8859-1 相同，只是土耳其字符替换了冰岛字符
10	ISO-8859-10 拉丁语 6 拉丁语 6 拉普兰语、北欧语和爱斯基摩人
11	ISO-8859-15 与 ISO-8859-1 相同，但添加了更多字符
12	ISO-2022- JP 拉丁/日文字母第 1 部分
13	ISO- 2022-JP-2 拉丁/日文字母第 2 部分
14	ISO-2022-KR 拉丁/韩语字母表第 1 部分

随后成立了 Unicode 联盟设计一种方法来显示不同语言的所有字符，而不是为不同的语言提供这些不同的不兼容的字符代码。

因此，如果您想创建使用多个字符集中的字符的文档，您将能够使用单一 Unicode 字符编码来做到这一点。

因此，Unicode 指定了能够以特殊方式处理字符串的编码，以便为其包含的庞大字符集腾出足够的空间。它们被称为 UTF8、UTF-16 和 UTF-32。

序号	字符集和描述
1	UTF-8 一种 Unicode 翻译格式，以 8 位为单位，即以字节为单位。 UTF8 中的字符长度可以为 1 到 4 个字节，因此 UTF8 的宽度可变。
2	UTF-16 一种 Unicode 翻译格式，以 16 位为单位，即以短裤形式出现。它可以是 1 或 2 个短裤长，使 UTF16 可变宽度。
3	UTF- 32 一种 Unicode 翻译格式，采用 32 位单位，即长整型。它是一种固定宽度的格式，长度始终为 1"long"。

序号

字符集和描述

UTF-8

一种 Unicode 翻译格式，以 8 位为单位，即以字节为单位。 UTF8 中的字符长度可以为 1 到 4 个字节，因此 UTF8 的宽度可变。

UTF-16

一种 Unicode 翻译格式，以 16 位为单位，即以短裤形式出现。它可以是 1 或 2 个短裤长，使 UTF16 可变宽度。

UTF- 32

一种 Unicode 翻译格式，采用 32 位单位，即长整型。它是一种固定宽度的格式，长度始终为 1"long"。

Unicode 字符集的前 256 个字符对应于ISO-8859-1 的 256 个字符。

默认情况下，HTML 4 处理器应支持 UTF-8，XML 处理器应支持 UTF-8 和 UTF-16；因此，所有兼容 XHTML 的处理器也应该支持 UTF-16。