字符编码是将字节转换为字符的方法。为了正确验证或显示 HTML 文档,程序必须选择正确的字符编码。
计算机上最常用的字符集或字符编码是 ASCII - 美国信息交换标准代码,并且此可能是电子编码文本中使用最广泛的字符集。
ASCII 编码仅支持大小写拉丁字母、数字 0-9 以及一些额外字符,总共 128 个字符全部。您可以查看完整的可打印 ASCII 字符
但是,许多语言使用带重音的拉丁字符或完全不同的字母。 ASCII 不处理这些字符;因此,如果您想使用任何非 ASCII 字符,您需要了解字符编码。
国际标准组织创建了一系列字符集来处理不同的国家字符。对于英语和大多数其他西欧语言的文档,使用广泛支持的编码 ISO-8859-1。
以下是世界各地使用的字符集列表及其说明。
序号 | 字符设置和说明 |
---|---|
1 | ISO-8859-1 拉丁字母第 1 部分 覆盖北美、西欧、拉丁美洲、加勒比、加拿大、非洲 |
2 | ISO-8859-2 拉丁字母第 2 部分 覆盖东欧 |
3 | ISO-8859-3 拉丁字母第 3 部分 覆盖东南欧、世界语、其他杂项 |
4 | ISO-8859-4 拉丁字母第 4 部分 覆盖斯堪的纳维亚/波罗的海(以及 ISO-8859-1 之外的其他地区) |
5 | ISO-8859-5 拉丁/西里尔字母第 5 部分 |
6 | ISO-8859-6 拉丁/阿拉伯字母第 6 部分 |
7 | ISO-8859-7 拉丁/希腊字母第 7 部分 |
8 | ISO-8859-8 拉丁/希伯来字母第 8 部分 |
9 | ISO-8859-9 拉丁 5 字母表第 9 部分 与 ISO-8859-1 相同,只是土耳其字符替换了冰岛字符 |
10 | ISO-8859-10 拉丁语 6 拉丁语 6 拉普兰语、北欧语和爱斯基摩人 |
11 | ISO-8859-15 与 ISO-8859-1 相同,但添加了更多字符 |
12 | ISO-2022- JP 拉丁/日文字母第 1 部分 |
13 | ISO- 2022-JP-2 拉丁/日文字母第 2 部分 |
14 | ISO-2022-KR 拉丁/韩语字母表第 1 部分 |
随后成立了 Unicode 联盟设计一种方法来显示不同语言的所有字符,而不是为不同的语言提供这些不同的不兼容的字符代码。
因此,如果您想创建使用多个字符集中的字符的文档,您将能够使用单一 Unicode 字符编码来做到这一点。
因此,Unicode 指定了能够以特殊方式处理字符串的编码,以便为其包含的庞大字符集腾出足够的空间。它们被称为 UTF8、UTF-16 和 UTF-32。
序号 | 字符集和描述 |
---|---|
1 | UTF-8 一种 Unicode 翻译格式,以 8 位为单位,即以字节为单位。 UTF8 中的字符长度可以为 1 到 4 个字节,因此 UTF8 的宽度可变。 |
2 | UTF-16 一种 Unicode 翻译格式,以 16 位为单位,即以短裤形式出现。它可以是 1 或 2 个短裤长,使 UTF16 可变宽度。 |
3 | UTF- 32 一种 Unicode 翻译格式,采用 32 位单位,即长整型。它是一种固定宽度的格式,长度始终为 1"long"。 |
Unicode 字符集的前 256 个字符对应于ISO-8859-1 的 256 个字符。
默认情况下,HTML 4 处理器应支持 UTF-8,XML 处理器应支持 UTF-8 和 UTF-16;因此,所有兼容 XHTML 的处理器也应该支持 UTF-16。