docs: sync character encoding translations (#1884)

2026-06-15 22:57:48 +08:00 · 2026-04-10 22:20:41 +08:00
parent 56653a2698
commit ae03a167a4
5 changed files with 5 additions and 5 deletions
--- a/docs/chapter_data_structure/character_encoding.md
+++ b/docs/chapter_data_structure/character_encoding.md
@@ -26,7 +26,7 @@

 <u>Unicode</u> 的中文名称为“统一码”，理论上能容纳 100 多万个字符。它致力于将全球范围内的字符纳入统一的字符集之中，提供一种通用的字符集来处理和显示各种语言文字，减少因为编码标准不同而产生的乱码问题。

-自 1991 年发布以来，Unicode 不断扩充新的语言与字符。截至 2022 年 9 月，Unicode 已经包含 149186 个字符，包括各种语言的字符、符号甚至表情符号等。在庞大的 Unicode 字符集中，常用的字符占用 2 字节，有些生僻的字符占用 3 字节甚至 4 字节。
+自 1991 年发布以来，Unicode 不断扩充新的语言与字符。截至 2022 年 9 月，Unicode 已经包含 149186 个字符，包括各种语言的字符、符号甚至表情符号等。Unicode 将每个字符映射为一个码点（字符编号），其取值范围为 0 至 1114111（即 U+0000 至 U+10FFFF），构成了统一的字符编号空间。

 Unicode 是一种通用字符集，本质上是给每个字符分配一个编号（称为“码点”），**但它并没有规定在计算机中如何存储这些字符码点**。我们不禁会问：当多种长度的 Unicode 码点同时出现在一个文本中时，系统如何解析字符？例如给定一个长度为 2 字节的编码，系统如何确认它是一个 2 字节的字符还是两个 1 字节的字符？