解讀ICDE’22論文:基於魯棒和可解釋自編碼器的無監督時間序列離群點檢測算法

摘要:本文提出了兩個用於無監督的具備可解釋性和魯棒性時間序列離群點檢測的自動編碼器框架。

本文分享自華為雲社區《解讀ICDE’22論文:基於魯棒和可解釋自編碼器的無監督時間序列離群點檢測算法》,作者:雲數據庫創新Lab 。

導讀

本文(Robust and Explainable Autoencoders for Unsupervised Time Series Outlier Detection)是由華為雲數據庫創新Lab聯合丹麥Aalborg University與電子科技大學發表在頂會ICDE』22的文章。該文章針對時間序列離群點檢測問題,提出了基於自動編碼器(AE)和魯棒的主成分分析(RPCA)結合的兼具魯棒性和可解釋性的深度神經網絡算法魯棒自動編碼器(RAE)和魯棒雙自動編碼器(RDAE),並通過大量的實驗證明RAE和RDAE算法能有效提高時間序列離群點檢測的準確度,魯棒性和可解釋性。ICDE是CCF推薦的A類國際學術會議,是數據庫和數據挖掘領域頂級學術會議之一。

1. 摘要

隨着數據挖掘技術在製造業、眾包和交通等領域的普及,大量的時序性數據被產生及應用。本文研究的是時間序列的離群點檢測問題,旨在解決時間序列離群點檢測難以兼具魯棒性和可解釋性的問題。

魯棒性:在無監督的情況下,訓練數據可能已經包括了離群值。由於編碼器壓縮了輸入時間序列中的所有觀測值,因此產生的潛在表徵對離群值很敏感。特別是當它們的幅度很大時,少量的離群值仍然可能污染潛在的表徵。訓練數據中的離群值有可能污染潛在表徵,使潛在表徵也捕捉到離群值模式;因此一些離群值可能有小的重建誤差(圖1b中的紅色曲線),很難從乾淨的數據中分離出來。這對準確性產生了不利的影響。例如,圖1b中的藍色曲線顯示了從被污染的潛在表徵中重建的時間序列。這就產生了一些重建誤差較小的離群值,使得它們很難被發現(見圖1b中的橙色區域)。為了避免這種情況,需要採用魯棒的解決方案,使潛像表徵受訓練數據中離群值的影響較小。

可解釋性:自動編碼器將具有較大重建誤差的觀測值視為離群值,給定一個輸入時間序列\mathcal{T}T,自動編碼器將重建潔凈的時間序列\hat{\mathcal{T}}T^。如果輸入時間序列中的觀測值與重建時間序列中的相應觀測值有很大的偏差,即相應的重建誤差\mathcal{T}-\hat{\mathcal{T}}T−T^很大,那麼自動編碼器就把這些觀測值看作是離群值。然而現有的自動編碼器產生的重建時間序列\mathcal{T}T往往比較複雜(例如,圖1b中的藍色曲線),致使用戶難以理解哪些觀測值應該出現在正常狀態下。這就要求有更多的可解釋的解決方案,例如重建的時間序列具有一個易於人類理解的模式(例如圖1c中的藍色曲線)。

圖1. 魯棒性和可解釋性說明

本文針對以上挑戰提出了相應的解決辦法,主要貢獻如下:

  • 本文提出了兩個用於無監督時間序列離群點檢測的自動編碼器框架RAE和RDAE,提供了更好的魯棒性和可解釋性。
  • 本文提出了一種post-hoc可解釋性分析技術。該方法能夠對基於AE的離群點檢測方法的可解釋性進行量化分析。
  • RAE和RDAE算法的準確率和可解釋性在真實的時間序列數據集上擊敗了現有的方法。

2. 背景

圖2. 自編碼器流程圖

模型設計:首先,本文提出的模型支持時間序列問題。第二,本文提出的模型具有魯棒性。第三,本文提出的模型具備可解釋性。第四,本文提出的模型支持非線性關係。第五,本文支持多視角的學習機制。基於上述分析,本文提出兩個兼具魯棒性和可解釋性的自動編碼器框架RAE和RDAE,其差異性如圖3所示:

圖3. 模型差異性

3. RAE和RDAE算法設計

本文提出的RAE和RDAE算法結合了自編碼器的支持時間序列,支持非線性擬合和RPCA具有良好魯棒性和可解釋性的優勢。我們會先後介紹這兩個模型。

RAE

RAE結合了自編碼器和RPCA的優點,其流程圖如圖4所示:

圖4. RAE流程圖

RAE算法的具體細節如圖5所示:

圖5. RAE算法細節

RDAE

多視圖學習已經被證明能夠通過向學習器提供補充信息來提高學習算法的魯棒性,例如矩陣視圖和時間序列視圖。受此啟發,基於RAE的多視圖框架RDAE被提出。其流程圖如圖6所示:

圖6. RDAE流程圖

RDAE算法的細節如圖7所示:

圖7. RDAE算法細節

4. 可解釋性

模型的可解釋性指模型的輸出是否易於人類理解並接受。圖8介紹了何為可解釋性:

圖8. 可解釋性介紹

圖8a中的藍色曲線為輸入的時間序列,紅色點為離群點。圖8b的模型展示了同事具備高準確率和可解釋性的模型。圖8c展示了高準確率但是不具備可解釋性的模型。圖8d展示了具備可解釋性但是低準確率的模型。可解釋性高的模型輸出的潔凈時間序列具有比較簡單的解析形式,即具備簡單的且可以被人類理解的函數形式。

本文提出了兩種post-hoc量化可解釋性方法,PRM-based Explainability Scores和SSA-based Explainability Scores。提出的方法可以量化不同的基於自編碼器的離群點檢測算法的可解釋性。我們會依次介紹這兩種方法。

PRM-based Explainability Scores

該方法的思想是將擬合的潔凈時間序列與N階多項式求解平方根均方誤差(RMSE),設定閾值\gammaγ,若RMSE小於該閾值,則認為潔凈時間序列覺有N階多項式序列可解釋性。求解模型輸出可以滿足要求的最小N。當N越小,則認為模型的輸出更具有可解釋性。其公式如下:

SSA-based Explainability Scores

該方法的思想是將擬合的潔凈時間序列與包含N個組件的SSA算法輸出求解平方根均方誤差(RMSE),SSA算法可將時間序列分解成N個具有趨勢性和周期性的時間序列的線性組合。設定閾值\gammaγ,若RMSE小於該閾值,則認為潔凈時間序列覺有包含N個組件的SSA可解釋性。求解模型輸出可以滿足要求的最小N。當N越小,則認為模型的輸出更具有可解釋性。其公式如下:

5. 實驗

本文選取了七個時間序列數據集GD,HSS,ECG,NAB,S5,2D,SYN,並選取了15個現有的離群點檢測方法作為baseline。

實驗結果 本文在七個數據集上分別做了對比實驗,用ROC和PR作為比較手段,總體實驗結果如圖9所示:

圖9. 實驗結果

實驗表明,RAE和RDAE在絕大多數情況下取得了最優表現。

此外,本文還完成了參數學習的研究,結果如圖10所示:

圖10. 參數學習

我們對模型的五個模塊進行了消融實驗,實驗證明每個模塊都發揮了作用,結果如圖11所示:

圖11. 消融實驗

最後本文還測試了算法運行時間的對比,實驗表明本文提出的方法在兼具魯棒性和可解釋性的同時運行時間也有一定的優勢。結果如圖12所示:

圖12. 運行時間實驗

6. 結論

本文提出了兩個用於無監督的具備可解釋性和魯棒性時間序列離群點檢測的自動編碼器框架。這些框架首次嘗試改善現有的基於神經網絡的自動編碼器的兩個不足:低可解釋性和對離群值的高脆弱性。RAE和RDAE將一個時間序列分解為一個潔凈時間序列和一個離群時間序列,並使它們對離群值具有魯棒性和可解釋性。我們提供了一種post-hoc可解釋性分析方法來量化模型的可解釋性。實驗研究表明本模型超過了最先進的方法。

華為雲數據庫創新lab官網://www.huaweicloud.com/lab/clouddb/home.html

華為夥伴暨開發者大會2022火熱來襲,重磅內容不容錯過!

【精彩活動】

勇往直前·做全能開發者→12場技術直播前瞻,8大技術寶典高能輸出,還有代碼密室、知識競賽等多輪神秘任務等你來挑戰。即刻闖關,開啟終極大獎!點擊踏上全能開發者晉級之路吧!

【技術專題】

未來已來,2022技術探秘→華為各領域的前沿技術、重磅開源項目、創新的應用實踐,站在智能世界的入口,探索未來如何照進現實,乾貨滿滿點擊了解

 

點擊關注,第一時間了解華為雲新鮮技術~