利用 Pandas 的 transform 和 apply 來處理組級別的丟失數據

2019 年 11 月 28 日
筆記

根據 Businessbroadway 的一項分析，數據專業人員將會花高達 60% 的時間用於收集、清理和可視化數據。

資料來源：Businessbroadway

清理和可視化數據的一個關鍵方面是如何處理丟失的數據。Pandas 以 fillna 方法的形式提供了一些基本功能。雖然 fillna 在最簡單的情況下工作得很好，但只要數據中的組或數據順序變得相關，它就會出現問題。本文將討論解決這些更複雜情況的技術。

這些情況通常是發生在由不同的區域（時間序列）、組甚至子組組成的數據集上。不同區域情況的例子有月、季（通常是時間範圍）或一段時間的大雨。性別也是數據中群體的一個例子，子組的例子有年齡和種族。

這篇文章附帶了程式碼。所以你可以隨意啟動一個 Notebook，直接開始。

文章結構：

Pandas fillna 概述
當排序不相關時，處理丟失的數據
當排序相關時，處理丟失的數據

Pandas fillna 概述

圖片來自 Pixabay

Pandas 有三種通過調用 fillna（）處理丟失數據的模式：

method='ffill'：ffill 或 forward fill 向前查找非空值，直到遇到另一個非空值
method='bfill'：bfill 或 backward fill 將第一個觀察到的非空值向後傳播，直到遇到另一個非空值
顯式值：也可以設置一個精確的值來替換所有的缺失值。例如，這個替換值可以是 -999，以表示缺少該值。

例子：

當排序不相關時，處理丟失的數據

來自 Pixabay 公共領域的圖片

通常，在處理丟失的數據時，排序並不重要，因此，用於替換丟失值的值可以基於可用數據的整體來決定。在這種情況下，你通常會用你猜測的最佳值（即，可用數據的平均值或中等值）替換丟失的值。

讓我們快速回顧一下為什麼應該小心使用此方法。假設你調查了 1000 個男孩和 1000 個女孩的體重。不幸的是，在收集數據的過程中，有些數據丟失了。

# imports  import numpy as np    # sample 1000 boys and 1000 girls  boys = np.random.normal(70,5,1000)  girls = np.random.normal(50,3,1000)    # unfortunately, the intern running the survey on the girls got distracted and lost 100 samples  for i in range(100):          girls[np.random.randint(0,1000)] = np.nan  # build DataFrame  boys = pd.DataFrame(boys, columns=['weight'])  boys['gender'] = 'boy'    girls = pd.DataFrame(girls, columns=['weight'])  girls['gender'] = 'girl'    df = pd.concat([girls,boys],axis=0)  df['weight'] = df['weight'].astype(float)

子組

如果不是很在意缺失值填充什麼，我們可以用整個樣本的平均值填充缺失的值。不過，結果看起來有些奇怪。女孩的 KDE 有兩個駝峰。有人可能會得出結論，在我們的樣本中有一個子組的女孩體重較重。因為我們預先構建了分布，所以我們知道情況並非如此。但如果這是真實的數據，我們可能會從中得出錯誤的結論。

男孩和女孩的體重 KDE，我們用樣本均值替換缺失的數據（下附程式碼）

# PLOT CODE:  sns.set_style('white')  fig, ax = plt.subplots(figsize=(16, 7))    mean = df['weight'].mean()    sns.distplot(         df[df['gender'] == 'girl']['weight'].fillna(mean),         kde=True,         hist=False,         ax=ax,         label='girls'  )    sns.distplot(         df[df['gender'] == 'boy']['weight'],         kde=True,         hist=False,         ax=ax,         label='boys'  )    plt.title('Kernel density estimation of weight for boys and girls')    sns.despine()

用組的平均值填充缺失值

在這種情況下，Pandas 的轉換函數就派上了用場，它使用變換提供了一種簡潔的方法來解決這個問題：

df['filled_weight'] = df.groupby('gender')['weight'].transform(  lambda grp: grp.fillna(np.mean(grp))  )

運行上述命令並繪製填充的權重值的 KDE 將得到：

男孩和女孩權重的 KDE，我們用組平均值替換缺失值（下面附程式碼）

# PLOT CODE:  sns.set_style('white')  fig, ax = plt.subplots(figsize=(16, 7))    sns.distplot(         df[df['gender'] == 'girl']['filled_weight'],         kde=True,         hist=False,         ax=ax,         label='girls'  )  sns.distplot(         df[df['gender'] == 'boy']['filled_weight'],         kde=True,         hist=False,         ax=ax,         label='boys'  )    plt.title('Kernel density estimation of weight for boys and girls')    sns.despine()

多個子組

讓我們使用前面的例子，但是這次，我們進一步將數據細分為年齡組。我們先創建一些模擬數據：

# paramter for the weight distribution (mean, std)  param_map = {          'boy':{                '<10':(40,4),                '<20':(60,4),                '20+':(70,5),          },         'girl':{                '<10':(30,2),                '<20':(40,3),                '20+':(50,3),         }  }  # generate 10k records  df = pd.DataFrame({         'gender':np.random.choice(['girl','boy'],10000),         'age_cohort':np.random.choice(['<10','<20','20+'],10000)  })  # set random weight based on parameters  df['weight'] = df.apply(         lambda x: np.random.normal(                loc=param_map[x['gender']][x['age_cohort']][0],                scale=param_map[x['gender']][x['age_cohort']][1]         ),axis=1  )  # set 500 values missing  for i in range(500):         df.loc[np.random.randint(0,len(df)),'weight'] = np.nan

繪製數據圖，會出現一些奇怪的雙峰分布（後面有程式碼）。

用樣本平均值代替缺失值

# PLOT CODE  df['filled_weight'] = df['weight'].fillna(          df['weight'].mean()  )    g = sns.FacetGrid(         df,         col='age_cohort',         row='gender',         col_order=['<10','<20','20+']  )    g.map(sns.kdeplot,'filled_weight')

現在，如果我們只用性別的平均值來代替缺失的值，就遠遠不夠，因為男孩和女孩不僅體重不同，而且不同年齡組的體重也大不相同。

幸運的是，可以像前面一樣使用轉換。我們將對兩列進行分組，程式碼如下：

df['filled_weight'] = df.groupby(['gender','age_cohort'])  ['weight'].transform(          lambda grp: grp.fillna(np.mean(grp))  )

運行上述程式碼片段將生成更清晰的曲線：

按年齡、性別分組的體重 KDE 用各組的平均值代替缺失值

當順序相關時，處理丟失的數據

Jake Hills 在 Unsplash 上的照片

在處理時間序列數據時，經常會出現兩種情況：

調整日期範圍：假設你有一份關於各國的 GDP、教育水平和人口年增長率的數據。對一些國家來說，你缺失了最初幾年、最後幾年或者中間幾年的數據。當然，你可以忽略它們。不過，為了可視化，你可能想要填充這些數據。
插值：看時間序列數據插值，你會發現排序變得非常相關。如果用基於截至 2019 年的數據計算出的平均值來替換 2012 年丟失的股票數據，勢必會產生一些古怪的結果。

我們將以《2019 年世界幸福報告》（World Happiness Report 2019）中的數據為基礎來看一個例子，在這個例子中，我們將處理這兩種情況。《世界幸福報告》試圖回答影響全世界幸福的因素。該報告調查了 2005 年至 2018 年的數據。

載入數據

# Load the data  df = pd.read_csv('https://raw.githubusercontent.com/FBosler/you- datascientist/master/happiness_with_continent.csv')

樣本檢驗

與 df.head（5）相反，df.sample（5）選擇五個隨機行，從而使你有一個偏差更小的數據可視化圖。

下載數據幀中的數據示例

讓我們看看我們每年有多少國家的數據。

每年有數據的國家數量

# PLOT CODE:  df.groupby(['Year']).size().plot(         kind='bar',         title='Number of countries with data',         figsize=(10,5)  )

我們可以看到，特別是在早些年，我們沒有多少國家的數據，而且整個樣本周期都有一些波動。為了減輕丟失數據的影響，我們將執行以下操作：

按國家分組並重新索引到整個日期範圍
在對每個國家分組的範圍之外的年份內插和外推

1.按國家分組並重新索引日期範圍

# Define helper function  def add_missing_years(grp):          _ = grp.set_index('Year')         _ = _.reindex(list(range(2005,2019)))         del _['Country name']         return _    # Group by country name and extend  df = df.groupby('Country name').apply(add_missing_years)  df = df.reset_index()

我們現在大約有 600 行數據。然而，這些觀察結果現在是無效的。

擴展數據幀，所有國家在 2005 年到 2018 年間都有數據

2.在對每個國家分組的範圍之外的年份內插和外推

# Define helper function  def fill_missing(grp):          res = grp.set_index('Year')         .interpolate(method='linear',limit=5)         .fillna(method='ffill')         .fillna(method='bfill')         del res['Country name']         return res  # Group by country name and fill missing  df = df.groupby(['Country name']).apply(         lambda grp: fill_missing(grp)  )    df = df.reset_index()

fill_missing 函數在末尾和開頭進行插值和外推，結果是：

很完美！現在我們有樣本中所有國家 2005 年至 2018 年的數據。當我寫這篇關於可視化的文章時，上面的方法對我來說很有意義。如果你想了解更多關於這篇報告的資訊，可以查看：https://towardsdatascience.com/plotting-with-python-c2561b8c0f1f

via：https://towardsdatascience.com/using-pandas-transform-and-apply-to-deal-with-missing-data-on-a-group-level-cb6ccf060531

利用 Pandas 的 transform 和 apply 來處理組級別的丟失數據

VirMach 便宜 VPS

QNews

利用 Pandas 的 transform 和 apply 來處理組級別的丟失數據

分享此文：

Related Posts

jQuery Ajax

微信公眾號使用：在微信公眾號文章中嵌入小程式的方法

2. 深入理解 Cookie 與 Session ,Facade 設計模式, 分散式 Session

Scrapy-筆記一 入門項目 爬蟲抓取w3c網站

VirMach 便宜 VPS

QNews

熱門搜尋

Scrapy-筆記一入門項目爬蟲抓取w3c網站