特征锦囊:如何把分布修正为类正态分布?

  • 2020 年 2 月 17 日
  • 笔记

今日锦囊

特征锦囊:如何把分布修正为类正态分布?

今天我们用的是一个新的数据集,也是在kaggle上的一个比赛,大家可以先去下载一下:

下载地址:https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data

import pandas as pd  import numpy as np  # Plots  import seaborn as sns  import matplotlib.pyplot as plt    # 读取数据集  train = pd.read_csv('./data/house-prices-advanced-regression-techniques/train.csv')  train.head()  

首先这个是一个价格预测的题目,在开始前我们需要看看分布情况,可以调用以下的方法来进行绘制:

sns.set_style("white")  sns.set_color_codes(palette='deep')  f, ax = plt.subplots(figsize=(8, 7))  #Check the new distribution  sns.distplot(train['SalePrice'], color="b");  ax.xaxis.grid(False)  ax.set(ylabel="Frequency")  ax.set(xlabel="SalePrice")  ax.set(title="SalePrice distribution")  sns.despine(trim=True, left=True)  plt.show()  

我们从结果可以看出,销售价格是右偏,而大多数机器学习模型都不能很好地处理非正态分布数据,所以我们可以应用log(1+x)转换来进行修正。那么具体我们可以怎么用Python代码实现呢?

# log(1+x) 转换  train["SalePrice_log"] = np.log1p(train["SalePrice"])    sns.set_style("white")  sns.set_color_codes(palette='deep')  f, ax = plt.subplots(figsize=(8, 7))    sns.distplot(train['SalePrice_log'] , fit=norm, color="b");    # 得到正态分布的参数  (mu, sigma) = norm.fit(train['SalePrice_log'])    plt.legend(['Normal dist. ($mu=$ {:.2f} and $sigma=$ {:.2f} )'.format(mu, sigma)],              loc='best')  ax.xaxis.grid(False)  ax.set(ylabel="Frequency")  ax.set(xlabel="SalePrice")  ax.set(title="SalePrice distribution")  sns.despine(trim=True, left=True)    plt.show()  

以上的内容大家有什么疑问的吗,欢迎留言咨询哈~