Python13 字符转编码

2020 年 1 月 7 日
筆記

编码：

最开始电脑的字符集是ASCII，英文在ASCII中每个字母占1个字节，但ASCII不支持中文，所以后来出现了Unicode；

Unicode中英文和中文都占用两个字节，对于英文来说不合理，所以在Unicode的基础上出现了Unicode的扩展集UTF8；

UTF8中，英文如同ASCII一样，每个字母只占了1个字节，而每个中文占了3个字节；

目前中国Windows系统默认都是使用GBK字符集，如果一个软件使用的是GBK来开发的话，放到其他国家的电脑系统中，软件中的中文就会以乱码显示，因为其他国家电脑默认是不支持BGK的；

Unicode这个字符集所有国家电脑系统都支持，所以当想要把通过GBK开发的软件的中文，能在其他国家电脑中正常你显示就需要先将GBK转成Unicode，然后其他国家电脑系统可以用Unicode转成他们支持的字符集，反之亦然。

如图：一个编码想转成另一个编码，必须先decode成Unicode，然后在encode成其他编码。

import sys  print (sys.getdefaultencoding())        #打印系统默认编码

在python3中，默认是utf-8（utf-8属于unicode的扩展集）

python2编码

import sys  print (sys.getdefaultencoding())

在python2中，默认是ascii

在python2中，设置编码为utf-8；写一个变量，这个变量会因为设置的原因，现在是utf-8 我们直接将这个变量（utf-8）进行转码到gbk，但是可以看到转码错误；正常转码之前，应该先解码成Unicode，但是我们这里没有做解码的操作，不过这里会自动做一个解码的操作，但这个自动解码的操作使用的是系统默认的ascii来解码，可我们的变量是utf-8，所以这里报错解码失败。

b = a.decode('utf-8') #这里指定源编码是utf-8，以utf-8为源编码转成unicode

这里我们先做一个解码操作，打印之后，我们可以看到打印type(b)可以正常显示是unicode，而打印的b却不正常，这是因为可以看到打印出来的是元组，unicode编码在元组中不会显示中文，只会以编码形的格式显示，在格式的前面有一个u，表示unicode；

 print (b)     #需要单独打印b，才不会以元组的形式打印

c = b.encode('gbk')        #将unicode转成gbk  print (c)

打印出来的是乱码，这是当前pycharm调整了编码模式为utf-8，所以打印gbk出来时是乱码

把pycharm改成GBK咋打印gbk就不是乱码了

c = b.encode('gbk')     #从unicode转成gbk

已经看到打印gbk不是乱码了，同时打印b（unicode）也同样不是乱码，这是因为unicode可以兼容所有编码，所以不会是乱码，如果这里是assic就会是乱码了

f = c.decode('gbk').encode('utf-8')    #将当前的gbk解码为unicode，然后在编码为utf-8  print (f)

打印出来是乱码

可以看到最后打印utf-8的已经不是乱码了；不过在之上的gbk就成乱码了。

x = u'一二三'            #在'一二三'前面有个u，表示直接转码为unicode  print (x)

可以看到unicode在utf-8编码下也能正常显示。 y = x.encode('gbk') #unicode编码可以直接encode为其他编码 print (y)

python3编码

import sys  print (sys.getdefaultencoding())    #python3默认就属于unicode，utf-8属于unicode的扩展集，所以也算是unicode    a = '哈喽'    print (a.encode('gbk'))            #unicode可以直接转成其他编码