請停止對分類變數進行獨熱編碼!

  • 2020 年 9 月 3 日
  • AI

字幕組雙語原文:請停止對分類變數進行獨熱編碼!

英語原文:Stop One-Hot Encoding Your Categorical Variables.

翻譯:雷鋒字幕組(chenx2ovowiige


獨熱編碼,又稱虛擬變數,是一種將分類變數轉換為若干二進位列的方法,其中1表示存在屬於該類別的那一行。

很顯然,從機器學習的角度來看,它並不是一個對分類變數編碼的很好的選擇。

一般來說,維度的數量越低越好,而這種方法很明顯增加了大量的維度。例如,如果我們要有一列代表美國的州(比如加州、紐約州),獨熱編碼就會增加五十個維度。

它不僅給數據集增加了大量的維度,而且冗餘資訊太多——1偶爾點綴在零的海洋中。這個異常稀疏的矩陣,使得它很難處理優化問題。對於神經網路來說尤其如此,這幾十個空的維度使得神經網路的優化器在錯誤空間中尋找最優解時就會遇到許多麻煩。

更糟糕的是,每一個資訊稀疏的列之間都有線性關係。這意味著一個變數可以很容易地使用其他變數進行預測,高維度下這會造成的並行性和多線性問題。

最優的數據集由獨立且包含有價值資訊的特徵組成,而獨熱編碼張成的空間卻不是這樣的。

當然,如果只有三個或四個類別,獨熱編碼可能還不是那麼糟糕,但根據數據集的相對大小,探索其他選擇也是值得。

目標編碼是表示分類列的一種非常有效的方法,只佔用一個特徵的空間。其又稱均值編碼,列中的每個值都用該類別的目標均值代替。這樣可以更直接地表示分類變數和目標變數之間的關係,是一種非常流行的技術(尤其是在Kaggle比賽上)。

這種編碼方法有一些缺點。首先,它使模型更難學習均值編碼變數和另一變數之間的關係,它只根據一列變數與目標變數的關係來得出相似性,這既可能是個優點也可能是個缺點。

但主要的是,這種編碼方法會對變數y非常敏感,從而影響模型提取編碼資訊的能力。

由於類別的每一個值都被替換為相同的數值,模型可能會傾向於過擬合它所見的編碼值(比如將0.8與0.79聯繫成完全不同的東西)。這就是將連續值視為大量重複類的影響。

因此,需要仔細監控y變數是否存在異常值。

要實現這一點,可以使用category_encoders庫。由於目標編碼器是一種監督方法,所以它需要包含x和y兩個值才能訓練。

留一法編碼試圖彌補這種對y變數的依賴,並通過排除當前行的數值來計算平均值作為編碼,使數值更加多樣化。這種方法可以消除離群值的影響,並生成了更多樣化的編碼值。

由於該方法顯示了每個編碼類相同的數值和範圍,因此他可以學到更好的泛化能力。

與其他方法一樣,留一法編碼可以通過category_encoders庫中的LeaveOneOutEncoder來進行實現。

另一種能實現類似效果的方法是在編碼中加入正態分布的雜訊,其中正態分布的標準差是一個可調節的參數。

貝葉斯標籤編碼是一種更偏向數學的方法,將標籤作為一種編碼方法。只使用平均數作為度量可能存在一定的欺騙性,因此貝葉斯標籤編碼尋求納入標籤變數分布的其他統計量,例如它的方差或偏度–被稱為 “高矩”。

然後通過貝葉斯模型將這些分布的屬性納入其中,從而能夠產生一個更了解類別標籤分布的編碼。但是,這種方法結果可解釋性較差。

證據權重是對分類獨立變數和因變數之間的關係的另一種微妙的表現。WoE是從信用評分領域演變而來的。它用于衡量違約客戶和還款客戶之間的差異。證據權重的數學定義是幾率比的自然對數:

ln (% of non events / % of events)

WoE越高,表明事件發生的可能性越大。’非事件’是那些不在某個類別中的事件發生的百分比。對於邏輯回歸來說,使用證據權重建立與因變數的單調關係(永遠不會停止向一個方向發展),並確保邏輯尺度上的類別,這是很自然的一件事。WoE還是另一個度量指標 “資訊值 “的關鍵組成部分,它可以衡量一個特徵能為預測提供的資訊量大小。

這些方法都是有監督的編碼器,或者說是考慮目標變數的編碼方法,因此他們在預測任務中大都效果較好。然而當需要進行無監督分析時,他們就未必能取得類似的結果。

非線性PCA是一種通過使用分類量化來處理分類變數的PCA方法。它可以為類別找到最佳的數值,從而使常規PCA的性能(解釋方差)最大化。在下面閱讀更多資訊:
超越普通PCA:非線性主成分分析
這裡的類別編碼文檔中探索其他幾種編碼選項。

感謝您的閱讀!


雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊,匯聚五百多位志願者的力量,分享最新的海外AI資訊,交流關於人工智慧技術領域的行業變革與技術創新的見解。

團隊成員有大數據專家、演算法工程師、影像處理工程師、產品經理、產品運營、IT諮詢人、在校師生;志願者們來自IBM、AVL、Adobe、阿里、百度等知名企業,北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。

雷鋒網雷鋒網