docs: sync character encoding translations (#1884)

This commit is contained in:
Yudong Jin
2026-04-10 22:20:41 +08:00
committed by GitHub
parent 56653a2698
commit ae03a167a4
5 changed files with 5 additions and 5 deletions

View File

@@ -26,7 +26,7 @@
<u>Unicode</u> 的中文名称为“统一码”,理论上能容纳 100 多万个字符。它致力于将全球范围内的字符纳入统一的字符集之中,提供一种通用的字符集来处理和显示各种语言文字,减少因为编码标准不同而产生的乱码问题。
自 1991 年发布以来Unicode 不断扩充新的语言与字符。截至 2022 年 9 月Unicode 已经包含 149186 个字符,包括各种语言的字符、符号甚至表情符号等。在庞大的 Unicode 字符集中,常用的字符占用 2 字节,有些生僻的字符占用 3 字节甚至 4 字节
自 1991 年发布以来Unicode 不断扩充新的语言与字符。截至 2022 年 9 月Unicode 已经包含 149186 个字符包括各种语言的字符、符号甚至表情符号等。Unicode 将每个字符映射为一个码点(字符编号),其取值范围为 0 至 1114111即 U+0000 至 U+10FFFF构成了统一的字符编号空间
Unicode 是一种通用字符集,本质上是给每个字符分配一个编号(称为“码点”),**但它并没有规定在计算机中如何存储这些字符码点**。我们不禁会问:当多种长度的 Unicode 码点同时出现在一个文本中时,系统如何解析字符?例如给定一个长度为 2 字节的编码,系统如何确认它是一个 2 字节的字符还是两个 1 字节的字符?