特徵錦囊:特徵無量綱化的常見操作方法
- 2020 年 1 月 2 日
- 筆記
特徵無量綱化的常見操作方法
第一招,從簡單的特徵量綱處理開始,這裡介紹了3種無量綱化操作的方法,同時也附上相關的包以及調用方法,歡迎補充!
無量綱化:即nondimensionalize 或者dimensionless,是指通過一個合適的變數替代,將一個涉及物理量的方程的部分或全部的單位移除,以求簡化實驗或者計算的目的。——百度百科
進行進一步解釋,比如有兩個欄位,一個是車行走的公里數,另一個是人跑步的距離,他們之間的單位其實差異還是挺大的,其實兩者之間無法進行比較的,但是我們可以進行去量綱,把他們的變數值進行縮放,都統一到某一個區間內,比如0-1,便於不同單位或者量級之間的指標可以進行比較or加權!
下面的是sklearn里的一些無量綱化的常見操作方法。
from sklearn.datasets import load_iris #導入IRIS數據集 iris = load_iris() #標準化,返回值為標準化後的數據 from sklearn.preprocessing import StandardScaler StandardScaler().fit_transform(iris.data) #區間縮放,返回值為縮放到[0, 1]區間的數據 from sklearn.preprocessing import MinMaxScaler MinMaxScaler().fit_transform(iris.data) #歸一化,返回值為歸一化後的數據 from sklearn.preprocessing import Normalizer Normalizer().fit_transform(iris.data)
通過上述的方法調用,可以達到我們進行去量綱的目的,你學會了嗎?