Unicode 與 ISO10646

主要是參考這兩篇文章:
http://www.ascc.net/nl/89/1610/02.txt
http://www.ascc.net/nl/89/1611/02.txt
以下主要是做圖片的補強與一些說明補充.


unicode_ucs4_1.jpg
0000h 字面稱為基本多語文字面(Basic Multi-lingual Plane, BMP).當電腦系統只使用 BMP 字元碼的時候,可以省略 G-octect 與 P-octect, 所以就變成 16 bit,稱為 ISO10646字元碼的基本面形式(即 UCS-2 ).
轉 UTF-16 的方法:
將原本是 32 bit 的 ucs-4 拆成兩個 double byte.範圍僅能包容第 1~14 個字面.
unicode_utf16_1.jpg
轉 UTF-8 的方法:
不定長度,轉換以後可能是 8 bit, 也可能是 16 bit 或 24 bit 或 32 bit.
將原本是 32 bit 的 ucs-4 拆成 4 個 byte,以利於傳輸.範圍含括第 1~31 個字面.
unicode_utf8_1.jpg