Python常用標準庫(pickle序列化和JSON序列化)
- 2022 年 5 月 25 日
- 筆記
- python小白的成長之路
常用的標準庫
序列化模組
import pickle
序列化和反序列化
把不能直接存儲的數據變得可存儲,這個過程叫做序列化。把文件中的數據拿出來,回復稱原來的數據類型,這個過程叫做反序列化。
在文件中存儲的數據只能是字元串,或者是位元組流,不能是其它的數據類型,但是如果想要將其存儲就需要序列化。
Python中的序列化模組叫做 pickle
,PHP等其它的一些語言將其稱作serialize
或者unserialize
,每個語言的序列化功能可以序列化它本身的一切數據類型。
使用場景
現在存在一段數據,現在並不需要他,但是說不定什麼時候我就要用它,那麼最好的方法就是將這段數據保存起來。
保存這段數據一般來說有那麼幾種方法(入庫或者保存文件),但是這段數據很複雜,而保存在資料庫中需要特定的數據格式,入庫的話就非常的麻煩了,而且我不想破壞數據的原有格式,那麼可以選擇保存為文件。
如下所示:保存文件會遇到種種的麻煩問題。
# 這是我想要保存的一段數據
lst = ['A', 'B', 'C']
# 直接使用open函數不能將非字元串和非位元組流的數據寫入文件
with open('data.txt', 'w', encoding='UTF-8') as fp :
fp.write(lst)
# !!! TypeError
# 將數據變成字元串就破壞了原有的數據結構(如果很複雜的數據結構幾乎沒有復原的可能性)
lst = str(lst)
# 將數據變成位元組流:只能將字元串變成位元組流數據!
現在就可以使用序列化功能,將數據序列化成為位元組流的格式,然後存在文件當中,當需要的時候,再從文件中讀取出來,然後反序列化成為數據原來的樣子,而且保證原數據的數據結構沒有變化。
而且可以序列化語言當中的任何數據類型,就是說不止是基本的數據類型,還有函數、類、對象……
dumps & loads
dumps
將任意對象序列化成bytes數據,loads
將序列化成為bytes的數據反序列成數據原本的格式。
注意:只能反序列化被序列化的數據
import pickle
# 這是我想要保存的一段數據
lst = ['A', 'B', 'C']
# dumps 把任意對象序列化成bytes
res = pickle.dumps(lst)
print(res) # b'\x80\x03]q\x00(X\x01\x00\x00\x00Aq\x01X\x01\x00\x00\x00Bq\x02X\x01\x00\x00\x00Cq\x03e.'
print(type(res)) # <class 'bytes'>
# 序列化後的bytes數據可以寫入文件中。
# loads 把任意bytes反序列化成為原來的數據
lst = pickle.loads(res)
print(lst) # ['A', 'B', 'C']
print(type(lst)) # <class 'list'>
# 嘗試反序列化其它的bytes數據
char = '你好'
by_char = char.encode()
new_char = pickle.loads(by_char) # _pickle.UnpicklingError: invalid load key, '\xe4'.
dump & load
含義和上述的相同,只是這個可以直接操作IO對象,省時省力。
import pickle
# 這是我想要保存的一段數據
lst = ['A', 'B', 'C']
# dumps 和 loads 配合文件操作
# 序列化後寫入文件
with open('test.txt', 'wb') as fp:
data = pickle.dumps(lst)
fp.write(data)
# 讀取文件反序列化
with open('test.txt', 'rb') as fp:
data = fp.read()
lst = pickle.loads(data)
# dump 和 load 配合文件操作
# 序列化寫入文件
with open('test.txt', 'wb') as fp:
pickle.dump(lst, fp)
# 讀取文件反序列化
with open('test.txt', 'rb') as fp:
lst = pickle.load(fp)
JSON序列化模組
import json
使用場景
序列化後的數據,如果想在多種語言中都可以流通怎麼辦?每種語言都有自己的語言特性,有些語言中的數據是特有的,那麼序列化後的數據該怎麼流通呢?
每種語言雖然各有自己的特點,但是幾乎所以的語言都是師出同門,天下語言無不出C者。所以將每種語言共同存在的數據格式按照統一的標準去序列化就可以了,JSON誕生了。
json一般存儲為json文件。
支援的數據類型
python中支援JSON序列化的數據一共有八種類型:
int、float、bool、str、list、tuple、dict、None
JSON序列化支援這幾種數據類型是因為JSON中就只支援這幾種數據類型:
如下為python中的數據類型對應json中的數據類型;
python數據類型 | JSON數據類型 |
---|---|
int | int |
float | float |
bool(True,False) | bool(true,false) |
None | null |
str | str(必須雙引號) |
list([])、tuple(()) | Array([]) |
dict({}) | Object({})(鍵必須是雙引號) |
注意:
- JSON中沒有元組類型,所以會變成列表;
- JSON中的對象必須使用字元串作為鍵,所以python中的字典數據中的非字元串鍵,會變成對應的JSON數據然後強轉成為字元串;
import json
dict_var = {1: 1, 2.2: 2.2, False: True, '123': '123', "234": "234", None: None}
json_obj = json.dumps(dict_var)
dict_var = json.loads(json_obj)
print(dict_var)
# {'1': 1, '2.2': 2.2, 'false': True, '123': '123', '234': '234', 'null': None}
JSON和pickle的區別
JSON可以序列化python八種數據,序列化為字元串。
pickle可以序列化python所有的數據類型,序列化為位元組流。
序列化函數
JSON序列化函數和pickle的一樣,名稱和使用方法基本一樣:
方法 | 含義 |
---|---|
dumps | 序列化 |
loads | 反序列化 |
dump | 序列化寫入文件 |
load | 讀取文件反序列化 |
這裡注意一下序列化方法的幾個常用參數:
ensure_asscii 默認為True, 以ACSII格式編碼,以Unicode顯示;
sort_keys 默認為True, 對字典的鍵進行排序;
indent默認為None, json格式化默認是一行不加縮進的,如果indent是一個正整數,就以該縮進級別進行換行,增強可視化。
import json
# 開啟排序
dict_var = {'B': '2', 'A': '1'}
print(dict_var) # {'B': '2', 'A': '1'}
json_char = json.dumps(dict_var, ensure_ascii=False, sort_keys=True)
dict_var = json.loads(json_char)
print(dict_var) # {'A': '1', 'B': '2'}
# 關閉排序
dict_var = {'B': '2', 'A': '1'}
print(dict_var) # {'B': '2', 'A': '1'}
json_char = json.dumps(dict_var, ensure_ascii=False, sort_keys=False)
dict_var = json.loads(json_char)
print(dict_var) # {'B': '2', 'A': '1'}
# dump 也一樣哦
json和pickle實際使用過程中的一些問題
在對文件進行操作的時候:
- json可以連續dump,但是不能連續load
- pickle可以連續dump和load
如下解釋:
# json 可以連續dump,但是不能連續load
import json
# 序列化數據
lst1 = [1, 2, 3]
lst2 = [4, 5, 6]
lst3 = [7, 8, 9]
# 序列化寫入文件
with open('test.json', 'w', encoding='UTF-8') as fp:
json.dump(lst1, fp)
json.dump(lst2, fp)
json.dump(lst3, fp)
# 讀取文件反序列化
with open('test.json', 'r', encoding='UTF-8') as fp:
data1 = json.load(fp) # ERROR
data2 = json.load(fp)
data3 = json.load(fp)
# !!! json.decoder.JSONDecodeError: Extra data: line 1 column 10 (char 9)
因為 json.dump
方法序列化寫入文件的時候,寫入了兩個及以上的數據,之後 json.load
方法在讀的時候又是一次性將整個文件中的數據讀取出來,這個時候,反序列化的數據成了 [1, 2, 3][4, 5, 6][7, 8, 9]
,這明顯不是一個json支援的數據格式,所以 json.load
失敗了。
再來看pickle是怎麼樣的:
# pickle 可以連續dump,也可以連續load
import pickle
# 序列化數據
lst1 = [1, 2, 3]
lst2 = [4, 5, 6]
lst3 = [7, 8, 9]
# 序列化寫入文件
with open('pickle.txt', 'wb') as fp:
pickle.dump(lst1, fp)
pickle.dump(lst2, fp)
pickle.dump(lst3, fp)
# 讀取文件反序列化
with open('pickle.txt', 'rb') as fp:
data1 = pickle.load(fp) # [1, 2, 3]
print(data1)
data2 = pickle.load(fp) # [4, 5, 6]
print(data2)
data3 = pickle.load(fp) # [7, 8, 9]
print(data3)
# 嘗試先逐行讀取,再反序列化
with open('pickle.txt', 'rb') as fp:
datum = fp.readlines()
print(len(datum)) # 1
for data in datum:
data = pickle.loads(data)
print(data) # [1, 2, 3] # 只能讀出一個
可以看到 pickle.load
將數據都讀出來了,這是因為 pickle.dump
在寫入數據的時候在每條數據後都加上了一個標記(有些人解釋說是換行,但是文件中並沒有換行,逐行使用 fp.readlines
逐行讀取的時候也只能獲取一條,但是在文件中所有的數據都是在同一行的,我也不太懂了(無奈)),然後 pickle.load
每次就只會讀一條數據,從IO指針讀到每條數據後的那個標記為止,所以,pickle
可以連續的 load
。
怎麼解決json的這個問題?
其實上面的這個問題,我個人認為是一種不規範的操作。因為 json.load
會一次性的讀取整個文件中的內容,你卻在一個文件中寫入了不止一條的數據,那麼在反序列化的時候當然會報錯了。所以我認為:
json的主要作用多語言之前的數據傳遞和數據存儲,每個JSON文件中最好只儲存一條完整的數據。
但是我就想在一個json文件中存多個數據呢?
其實思路很簡單,關鍵就是讀取文件然後反序列化的時候,必須是一條數據、一條數據的反序列化,類似如下:
import json
# 序列化數據
lst1 = [1, 2, 3]
lst2 = [4, 5, 6]
lst3 = [7, 8, 9]
# 序列化寫入文件,每寫入一條數據插一個換行
with open('test.json', 'w', encoding='UTF-8') as fp:
json.dump(lst1, fp)
fp.write('\n')
json.dump(lst2, fp)
fp.write('\n')
json.dump(lst3, fp)
# 讀取文件反序列化(逐行讀取數據,然後反序列化)
with open('test.json', 'r', encoding='UTF-8') as fp:
datum = fp.readlines()
print(len(datum)) # 3
for data in datum:
data = json.loads(data)
print(data) # [1, 2, 3]
# [4, 5, 6]
# [7, 8, 9]
pickle和json的區別總結
- json序列化後的數據為字元串,pickle序列化後的數據為位元組流;
- json支援八種數據類型(int、float、bool、str、list、tuple、dict、None),pickle支援python的一切數據類型;
- json一般用於多語言間的數據交流,pickle一般用於python之間數據交流;