特征锦囊:如何把分布修正为类正态分布?
- 2020 年 2 月 17 日
- 笔记
今日锦囊
特征锦囊:如何把分布修正为类正态分布?
今天我们用的是一个新的数据集,也是在kaggle上的一个比赛,大家可以先去下载一下:

下载地址:https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data
import pandas as pd import numpy as np # Plots import seaborn as sns import matplotlib.pyplot as plt # 读取数据集 train = pd.read_csv('./data/house-prices-advanced-regression-techniques/train.csv') train.head()

首先这个是一个价格预测的题目,在开始前我们需要看看分布情况,可以调用以下的方法来进行绘制:
sns.set_style("white") sns.set_color_codes(palette='deep') f, ax = plt.subplots(figsize=(8, 7)) #Check the new distribution sns.distplot(train['SalePrice'], color="b"); ax.xaxis.grid(False) ax.set(ylabel="Frequency") ax.set(xlabel="SalePrice") ax.set(title="SalePrice distribution") sns.despine(trim=True, left=True) plt.show()

我们从结果可以看出,销售价格是右偏,而大多数机器学习模型都不能很好地处理非正态分布数据,所以我们可以应用log(1+x)转换来进行修正。那么具体我们可以怎么用Python代码实现呢?
# log(1+x) 转换 train["SalePrice_log"] = np.log1p(train["SalePrice"]) sns.set_style("white") sns.set_color_codes(palette='deep') f, ax = plt.subplots(figsize=(8, 7)) sns.distplot(train['SalePrice_log'] , fit=norm, color="b"); # 得到正态分布的参数 (mu, sigma) = norm.fit(train['SalePrice_log']) plt.legend(['Normal dist. ($mu=$ {:.2f} and $sigma=$ {:.2f} )'.format(mu, sigma)], loc='best') ax.xaxis.grid(False) ax.set(ylabel="Frequency") ax.set(xlabel="SalePrice") ax.set(title="SalePrice distribution") sns.despine(trim=True, left=True) plt.show()

以上的内容大家有什么疑问的吗,欢迎留言咨询哈~