【基礎】集成學習 (Ensemble Learning)

  • 2020 年 2 月 18 日
  • 筆記

編輯:深度學習愛好者社區

集成學習方法是結合多個模型演算法,從而提高整體的準確性,進而得到更好的預測結果。

比如,我們熟知的隨機森林就是一種集成學習的方法,它結合了多個決策樹的預測結果,而每一個決策樹又是用隨機的不同的數據訓練而成。所以,從這種意義上來講,隨機森林的預測表現一般比單個決策樹的表現要好

集成學習的概念應該不難理解,這個想法廣泛的存在於我們的日常生活當中。

比如,當我們需要買一台新的筆記型電腦的時候,我們往往是根據自己的需要來選擇自己想要的配置,像多大的記憶體,多大的硬碟,以及什麼樣的處理器等等。

再比如,當我們決定買一輛新車的時候,我們也是根據自己的喜好和需要,選擇不同的配置,是不是需要有GPS,有video的,什麼樣的發動機,…

集成學習因為結合了多種模型,從一定程度上來講,集成模型減少了噪音,方差和偏差,而這正是機器學習模型預測過程中產生錯誤的主要原因。如果我們能降低減少這些產生誤差的原因,自然就可以提高模型的整體預測水平,而這也正是集成方法的重點思想所在。

我們還依然記得盲人摸象的故事。故事中,每個人只是摸到了大象的某個局部位置,當然如果只根據所摸到的這個局部位置來預測這是什麼物體的話,自然會有偏差,當然不能很好的真實的猜出來。而如果我們結合了所有盲人所得到的資訊,把這些資訊結合在一起,而進行猜測是什麼物體的話,準確率自然會大大提升。

因此,我們再一次看到了集成學習方法的思想所在。它是一種降低方差,偏差和噪音的方法。基本上,每種模型都是在某些情況下表現很好,而在某些特定情況下表現的不好。這樣,通過結合這幾種單獨的模型,那麼集成的模型就會某種程度上克服這些缺點,從而整體上勝出任何一個單獨的模型。

集成學習模型被廣泛的應用於各個領域之中,像土地覆蓋圖,人臉識別,面部表情識別等等。而比較流行的集成方法有隨機森林, XGBoost, 貝葉森模型…