深度森林新探索,應用於多標籤學習

  • 2019 年 11 月 22 日
  • 筆記

南京大學周志華教授團隊提出的「深度森林」算法曾在人工智能學術界和工業界受到廣泛關注,並已在大型互聯網金融企業實施。

該類技術是一種基於不可微分單元(即樹/樹集成)的方法,具備適合多核芯片架構加速等特點,並且能夠比基於神經網絡的感知器更好地處理離散數據或列表數據,利用如英特爾至強可擴展處理器這樣的核心架構設備可以達到最大程度的優化。

近日,南京大學周志華團隊最新研究首次將深度森林引入到多標籤學習中,提出了多標籤深度森林方法MLDF。

非神經網絡模型——深度森林

第三波人工智能浪潮興起之後,深度學習技術大火,深度神經網絡模型成為產業界和學界追捧的對象。但目前的深度神經網絡也有諸多缺陷,比如太多超參數、需要大量訓練數據、理論分析難、黑箱模型,以及模型一旦選定複雜度即確定,通常遠大於任務「所需」複雜度等等問題。「深度森林」是人工智能領域的一大創新,為人工智能算法打開了一扇新的大門,它並不是要替代深度學習,因為它本身就是一種深度學習,是首個不使用BP算法來訓練的深度學習模型。

從應用價值的角度講,在圖像、視頻、語音之外的很多任務上深度神經網絡往往並非最佳選擇,不少時候甚至表現不佳,比如符號建模、混合建模、離散建模等問題上。「深度森林」在這些任務上可能有更好的表現,目前,深度森林模型已經有大型企業應用並取得了很好的效果。所以,它不僅僅只具有學術價值,還有實用價值。

深度森林採用多層級結構,每層由四個隨機森林組成,兩個隨機森林和兩個極端森林,每個極端森林包含1000個完全隨機樹,每個森林都會對的數據進行訓練,每個森林都輸出結果,這個結果叫做森林生成的類向量。為了避免過擬合,餵給每個森林訓練的數據都是通過k折交叉驗證的,每一層最後生成四個類向量,下一層以上一層的四個類向量,以及原有的數據為新的train data進行訓練,如此反覆疊加,最後一層將類向量進行平均,得出預測結果。

通過對比不難發現,這種結構非常類似於神經網絡,神經網絡的每個單位是神經元,而深度森林的單位元卻是隨機森林,單個隨機森林在性能上強於單個神經元的,這就是使得深度森林很多時候儘管層級和基礎森林樹不多,也能取得好的結果的主要原因。

然而從根本上來說,深度森林是完全有別於神經網絡的,這就使它具備了全新的可能,拓展了深度學習的體系。

新探索——用於多標籤學習

最近,周志華教授團隊拓展了深度森林的應用範圍,將深度森林方法用於多標籤學習,這是一次全新的大膽嘗試。

在多標籤學習中,每個實例都與多個標籤相關聯,而關鍵的任務是如何在構建模型中利用標籤相關性。深度神經網絡方法通常將特徵信息和標籤信息一起嵌入到一個潛在空間中以利用標籤的相關性。然而,這些方法的成功在很大程度上取決於對模型深度的精確選擇。

深度森林則不同,它不依賴於反向傳播。可能就是根據這種不同的特性,周志華團隊認為深度森林模型的優點非常適合解決多標籤問題,並用兩種機制設計了多標籤深度森林方法:

  • 度量感知特性重用,
  • 度量感知層增長。

在多標籤學習中,每個實例都同時與多個標籤相關聯,多標籤學習的任務是為未見過的實例預測一組相關標籤。因此被廣泛應用於文本分類、場景分類、功能基因組學、視頻分類、化學品分類等多種問題。在現實問題中幾乎無所不在,吸引了越來越多的研究關注。

深度森林是建立在決策樹之上的集成深度模型,在訓練過程中不使用反向傳播。具有級聯結構的深度森林集成系統能夠像深度神經模型一樣進行表示學習。它更容易訓練,因為它的超參數更少。

由於多標籤學習中的評估比傳統的分類任務更複雜,因此有多種性能度量方法。新方法MLDF能通過不同的多標籤樹方法創建深度森林的構建塊,並通過逐層表示學習來利用標籤相關性,首次將深度森林引入到多標籤學習中,解決了兩個具有挑戰性的問題:根據用戶需求優化不同的性能指標;在利用大量層的特徵相關性時減少過擬合。