Python2 和 Python3 中默認編碼的差異

最近在使用 Python3.4 做一些腳本實現,發現對於編碼的處理上和 Python2.6 有很大的不同,就此機會把相關知識做個梳理,方便需要的時候查閱。

先說下概念和差異:

腳本字元編碼:就是解釋器解釋腳本文件時使用的編碼格式,可以通過 # -*- coding: utf-8 -*- 顯式指定; 解釋器字元編碼:解釋器內部邏輯過程中對 str 類型進行處理時使用的編碼格式。 Python2 中默認把腳步文件使用 ASCII 來處理(歷史原因請 Google); Python2 中字元串除了 str 還有 Unicode,可以用 decode 和 encode 相互轉換; Python3 中默認把腳步文件使用 UTF-8 來處理(終於默認就支援中文了,贊); Python3 中文本字元和二進位分別使用 str 和 bytes 進行區分,也是使用 decode 和 encode 進行相互轉換;

關於默認腳本字元編碼,因為對腳步文件處理的默認編碼格式變了,所以很多針對內容的處理,都發生了變化,比如下面這個腳本。

import sysprint(sys.getdefaultencoding())  print('中文')

使用 Python3.4 解釋器運行結果如下:

> python34 test.py  utf-8中文

使用 Python2.6 解釋器運行結果如下:

> python26 test.py   File "test.py", line 4  SyntaxError: Non-ASCII character 'xe4' in file test.py on line 4, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

使用 Python2.6 報錯就是因為第一條說的「Python2 中默認把腳步文件使用 ASCII 來處理」,但是腳步文件包含了中文,ascii 又沒有覆蓋中文,所以報錯。如果我們把腳步稍作修改:

# -*- coding: utf-8 -*-    import sysprint(sys.getdefaultencoding())  print('中文')

增加了腳本字元編碼的說明,再次使用 Python2.6 解釋器運行結果為:

> python26 test.py  ascii  涓枃

因為明確指定了腳步文件編碼格式為 utf-8,所以讀取沒問題,也就是說如果 Python2 腳本文件中包含了非 ASCII 字元時,一定要顯式指定腳步文件編碼格式,對於 Python3 因為默認的腳步文件編碼格式就是 utf-8,所以沒有這個問題(後面會有文章詳細討論這個問題)。

但是我們回頭看下剛才的輸出,結果顯示為亂碼。

亂碼就涉及到另一個我們要說的不同點解釋器字元編碼,因為我們定義了 utf-8 格式讀取腳步內容,但是因為 Python2.6 在 Windows 平台上,默認是使用 gbk 對字元進行 decode 輸出,不信你看:

> python26  ActivePython 2.6.6.15 (ActiveState Software Inc.) based on  Python 2.6.6 (r266:84292, Aug 24 2010, 16:01:11) [MSC v.1500 32 bit (Intel)] on  win32  Type "help", "copyright", "credits" or "license" for more information.  >>> s='中文'  >>> s  'xd6xd0xcexc4'  >>> s.decode('gbk').encode('utf-8')  'xe4xb8xadxe6x96x87'  >>> print('xd6xd0xcexc4')  中文  >>> print('xe4xb8xadxe6x96x87')  涓枃

完整描述下上面亂碼出現的過程:

使用指定的腳本文件編碼 utf-8 格式讀取了「中文」,讀取到的字元串內容為 『xe4xb8xadxe6x96x87』,然後輸出時 Python2.6 的解釋器使用默認解釋器字元編碼 gbk 格式對讀取內容進行 encode 輸出,但是之前 utf-8 是 3 個位元組長度表示一個中文,而 gbk 是用 2 個位元組長度來表示中文,所以之前的 2 個中文,在輸出的時候就按照 3 個中文進行編碼(encode),當然就亂碼了,仔細看那個亂碼,就是 3 個字。

我們再用程式碼驗證下上面說的內容:

# -*- coding: utf-8 -*-    import sysprint(sys.getdefaultencoding())  print('中文')  print('xe4xb8xadxe6x96x87')  print('xe4xb8xadxe6x96x87'.decode('gbk', 'ignore'))  print('xd6xd0xcexc4'.decode('gbk').encode('utf-8'))  print('中文'.decode('utf-8'))  print('xe4xb8xadxe6x96x87'.decode('utf-8'))  print('xd6xd0xcexc4')  print('xd6xd0xcexc4'.decode('gbk'))

看看輸出結果:

> python26 test.py  ascii  涓枃  涓枃  涓枃  涓枃  中文  中文  中文  中文

很明顯 gbk 格式解碼的十六進位字元正常輸出為中文了,顯式使用 utf-8 對 utf-8 格式的十六進位字元進行 decode 也輸出正常了。

同理,還可以看到另外 2 個現象:

把 py 文件用 utf-8 格式存儲,並且包含「中文」字樣時,如果使用 gbk 格式打開,也是看到「中文」顯示的亂碼和上面程式輸出的一致; 如果把 py 文件使用 gbk 格式存儲,這時候 print('中文') 也顯示正常了;

亂碼的終極原因就是:對同一個字元串的 encode 和 decode 編碼格式不一致。

上面說的這個問題,如果文件存儲和腳本文件編碼都使用 utf-8 時,使用 Python3.4 是沒有問題的,因為 Python3 默認的解釋器字元編碼是 utf-8 了,默認就可以處理中文了。

總結下結論:

  1. Python2 腳步文件盡量使用 gbk 格式存儲;同理 Python3 腳步文件盡量使用 utf-8 格式存儲;
  2. Python2 腳步如果帶有中文字元時,請務必在腳本開頭聲明能支援中文的腳本文件編碼;
  3. Python2 中對同一個字元串的 encode 和 decode 編碼格式請保持一致;

說明:本次所有測試腳本文件均保存為 utf-8 格式。

以上,如果覺得有用,請幫忙轉發分享,不甚感激。