5分鐘入門pandas

2020 年 5 月 4 日
筆記
工程

pandas是在數據處理、數據分析以及數據可視化上都有比較多的應用，這篇文章就來介紹一下pandas的入門。勞動節必須得勞動勞動

1. 基礎用法

以下代碼在jupyter中運行，Python 版本3.6。首先導入 pandas

import pandas as pd

# 為了能在jupyter中展示圖表
%matplotlib inline

# 從csv文件讀取數據，也可從excel、json文件中讀取
# 也可以通過sql從數據庫讀數據
data = pd.read_csv('order_list.csv')

# 輸出幾行幾列
data.shape

output:
(1000, 3)

可以看到，變量 data 是一個二維表，有1000行，3列。pandas中這種數據類型被稱作 DataFrame。

# 查看數據描述
data.describe()

data 中有3列，good_id、good_cnt 和 order_id 分別代表商品id、購買該商品數量和訂單id。最左側是describe函數統計的指標，包括每一列的數量、均值、標準差、最大值、最小值等等。

# 預覽數據，條數可設
data.head(3)

# 獲取第2行數據
data.loc[2]

output:
good_id       100042
good_cnt           1
order_id    10000002
Name: 2, dtype: int64

# 獲取多行數據，數組元素代表行號
data.loc[[1, 2]]

# 獲取商品id=100012的所有記錄
data[data['good_id']==100012]

# 獲取商品id=100012且每筆訂單銷量=6的所有記錄  
data[(data['good_id']==100087) & (data['good_cnt']==6)]

# 獲取訂單號在[10000000, 10000042]中的記錄
data[data['order_id'].isin([10000000, 10000042])]

# 畫100012商品，每筆訂單銷量折線圖
data[data['good_id']==100012]['good_cnt'].plot()

# 畫100012商品，銷量柱狀圖
data[data['good_id']==100012]['good_cnt'].hist()

# 更新數據，將第1行的good_cnt列改為10
data.loc[1, 'good_cnt'] = 10
data.head(3)

# 將100012商品每筆訂單銷量都改為20
data.loc[data['good_id']==100012, 'good_cnt'] = 20
data.head(3)

2. 中級用法

# 統計每種商品出現次數
# 即：每種商品的下單次數
data['good_id'].value_counts()
output:
100080    18
100010    16
100073    16
100097    15
100096    15
          ..
100079     5
100077     5
100007     4
100037     4
100033     4
Name: good_id, Length: 100, dtype: int64

# 取出商品銷量列，該列中每個值都加1
data['good_cnt'].map(lambda x: x+1)
output:
0      21
1      11
2       2
3       4
4      10
       ..
995     8
996     9
997     6
998     5
999     9
Name: good_cnt, Length: 1000, dtype: int64

這裡，map並不改變原有的 data 中的數據，而是返回新的對象。

# 對數據集每列調用給定的函數
data.apply(len)

這裡是對每列執行len函數，當然apply中的len函數也可以換成自定義的 lambda 表達式。另外，如果想按行做處理，則在調用apply函數時加上axis=1參數即可。

# 對數據集中所有元素調用給定函數
# 同樣不改變原有數據集
data.applymap(lambda x: x*100)

# 計算每列之間的相關係數
data.corr()

# 畫出相關係數矩陣
pd.plotting.scatter_matrix(data, figsize=(12,8))

以左小角為例，它表示商品id（good_id）和訂單id（order_id）之間的相關性。由於點比較分散，沒有任何規律，因此可以說明這兩列在數據值上沒有相關性，這也好理解，因為本來它倆就是不同的概念。

相關係數矩陣一般用於機器學習中觀察不同特徵之間的相關性。

3. 高級用法

實現SQL join操作


# 構造DateFrame，代表訂單發生的城市
order_city_df = pd.DataFrame(\
    dict(order_id=[10000000, 10000001], \
         city=['上海', '北京'])\
)

# 實現join
data.merge(order_city_df, on=['order_id'])

實現SQL group by操作

# 統計每個商品的總銷量
data.groupby('good_id')['good_cnt'].sum().reset_index()

遍歷 DataFrame 中每行數據

dictionary = {}

for i,row in data.iterrows():
  dictionary[row['good_id']] = row['good_cnt']

pandas的入門就介紹到這裡，希望能對你有幫助。對於想繼續深入的朋友可以參考pandas官方文檔，中英文都有。另外，我們使用pandas一般都是單機來處理，如果數據量比較大，單機運行起來會比較慢。這時候你可能會用到另外一個工具叫 Dask，它的接口兼容 pandas，可以與pandas相互轉換，並且可以運行在集群上分佈式處理數據。

如需完整代碼，在公眾號回復關鍵字 pd 即可

歡迎公眾號「渡碼」，輸出別地兒看不到的乾貨。

Tags: 工程