Java编码和字符集(详解)
【1】什么是编码?
【2】通过生活案例:
【3】由权威机构形成的编码表才可以称之为:字符集
ASCII
英文字符集
用一个字节的7位表示
IOS8859-1
西欧字符集
用一个字节的8位表示
GB2312
简体中文字符集
最多使用两个字节编码
PS:
中文:2个字节
GB2312兼容了ASCII中的字符:
GBK GB2312的升级,加入了繁体字
最多使用两个字节编码
疑问:
首位如果是0:一个字节代码代表一个字符
首位如果是1:那么一个字节不够,要加上后面的字节才能完整的表示一个字符。
Unicode
国际通用字符集,融合了目前人类使用的所有字符。为每个字符分配唯一的字符码。
退出了UTF标准:
三种编码方案: UTF-8,UTF-16,UTF-32
以UTF-8为案例讲解:
中文: 珊 —》Unicode : 29642
底层存储:
UTF-8标准最多可以用6个字节表示:
以后我们用的最多的就是UTF-8.