Java編碼和字符集(詳解)
【1】什麼是編碼?
【2】通過生活案例:
【3】由權威機構形成的編碼表才可以稱之為:字符集
ASCII
英文字符集
用一個位元組的7位表示
IOS8859-1
西歐字符集
用一個位元組的8位表示
GB2312
簡體中文字符集
最多使用兩個位元組編碼
PS:
中文:2個位元組
GB2312兼容了ASCII中的字元:
GBK GB2312的升級,加入了繁體字
最多使用兩個位元組編碼
疑問:
首位如果是0:一個位元組程式碼代表一個字元
首位如果是1:那麼一個位元組不夠,要加上後面的位元組才能完整的表示一個字元。
Unicode
國際通用字符集,融合了目前人類使用的所有字元。為每個字元分配唯一的字元碼。
退出了UTF標準:
三種編碼方案: UTF-8,UTF-16,UTF-32
以UTF-8為案例講解:
中文: 珊 —》Unicode : 29642
底層存儲:
UTF-8標準最多可以用6個位元組表示:
以後我們用的最多的就是UTF-8.