MIDAS簡介:圖形異常檢測的最新模型

  • 2020 年 9 月 7 日
  • AI

字幕組雙語原文:MIDAS簡介:圖形異常檢測的最新模型

英語原文:MIDAS: A State-of-the-Art Model for Anomaly Detection in Graphs

翻譯:雷鋒字幕組(yhfwww


在機器學習中,諸如自動車輛、GANs和人臉識別等熱門話題常常佔據媒體的大部分注意力。然而,數據科學家正在努力解決的另一個同樣重要的問題—-異常檢測。從網路安全到金融欺詐,異常檢測有助於保護企業、個人和在線社區。為了幫助改進異常檢測,研究人員開發了一種稱為 MIDAS 的新方法。

什麼是MIDAS?

在新加坡國立大學,博士生Siddharth Bhatia和他的團隊開發了 MIDAS ,這是一種新的異常檢測方法,在速度和精確度上都優於基準線方法。

MIDAS是基於微聚類的邊緣(Edge)流異常檢測器。顧名思義,MIDAS 可以檢測到微聚類異常或突然出現的一組可疑的相似邊緣。MIDAS 的一個主要優點是它能夠實時檢測這些異常,其速度比現有的最先進的模型快很多倍。

圖中異常檢測的實際用例

簡單地說,異常檢測是一種尋找模式或異常值的實踐,這些模式或異常值偏離了您期望在數據集中看到的內容。它可以幫助我們發現和消除有害內容。Siddharth說:「圖的異常檢測是在無數系統中發現可疑行為的關鍵問題,其中一些系統包括入侵檢測、虛假評級和財務欺詐。「

這項技術可以幫助Twitter和Facebook等社交網路檢測用於垃圾郵件和網路釣魚的虛假個人資料。它甚至可以用來幫助調查人員識別網上性侵犯者。Siddharth說:「使用MIDAS,我們可以在動態(時間演化)圖中找到不規則的邊和節點。在Twitter和Facebook中,tweet和message網路可以看作是一個時間演化的圖,我們可以通過發現這些圖中的異常邊和節點來發現惡意消息和偽造的概要文件。」

異常檢測的一些其他常見用例包括:

  • 垃圾郵件過濾器

  • 信用卡欺詐檢測

  • 數據集預處理

  • 網路安全

  • 社交媒體

  • 內容適當檢測

MIDAS優於最先進的方法

Siddharth說:「異常檢測是一個經過充分研究的問題,大多數建議的方法都集中在靜態圖上。然而,許多真實世界的圖形本質上是動態的,基於靜態連接的方法可能會忽略圖形和異常的時間特性。「

MIDAS解決了實時檢測異常的需要,以便儘快開始恢復並減少惡意活動(如欺詐性信用卡購買)的影響。

Siddharth解釋:”此外,由於頂點的數目會隨著邊流的處理而增加,因此我們需要一種在圖大小上使用恆定記憶體的演算法。此外,許多應用程式中的欺詐或異常事件發生在微群集或突然到達的可疑相似邊緣組中,例如網路流量數據中的拒絕服務攻擊和鎖步行為。”

Siddharth說:「通過使用原則性的假設檢驗框架,MIDAS提供了假陽性概率的理論界限,而早期的方法沒有提供這種界限。」

MIDAS是如何測試的?

Siddharth和他的同事展示了MIDAS在社會網路安全和入侵檢測任務中的潛力。

他們使用以下數據集進行異常檢測:

  • Darpa入侵檢測(450萬IP-IP通訊)

  • Twitter安全數據集(2014年260萬條與安全事件相關的推文)

  • Twitter世界盃數據集(2014年足球世界盃期間170萬條推文)

為了比較MIDAS的性能,團隊查看了以下基準線:

  • RHSS

  • SEDANSPOT

然而,由於RHSS在Darpa數據集上的AUC測量值較低,為0.17,研究小組通過與SEDANSPOT的比較來測量準確性、運行時間和實際有效性。

結果

MIDAS檢測微聚類異常的準確率高達48%,比當前的基準線方法快644倍。

Siddharth說:「我們的實驗結果表明,MIDAS的準確率(在AUC方面)比基準線方法高出42%-48%,此外,MIDAS處理數據的速度比基準線方法快162-644倍。「

改進MIDAS:未來的工作

「我們已經將MIDAS擴展到M-Stream:快速流多方面組異常檢測,」Siddharth說。「在M-Stream中,我們檢測具有分類屬性和數值屬性的多方面數據的異常。」

Siddharth和他的團隊說,M-Stream在精確度和運行時間方面也優於一些基準線,包括流行的Sklearn演算法,如隔離林和局部離群因子。然而,他們在M-Stream上的工作目前正在審查中。

「考慮到MIDAS的性能,我們認為它將成為一種新的基準線方法,對異常檢測非常有用,」Siddharth說。「此外,探索MIDAS如何在其他應用程式中發揮作用也很有趣。」

如果你有興趣了解更多關於邁達斯的知識,請查閱Siddharth的論文。您也可以在Github上下載程式碼和數據集。


雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊,匯聚五百多位志願者的力量,分享最新的海外AI資訊,交流關於人工智慧技術領域的行業變革與技術創新的見解。

團隊成員有大數據專家、演算法工程師、影像處理工程師、產品經理、產品運營、IT諮詢人、在校師生;志願者們來自IBM、AVL、Adobe、阿里、百度等知名企業,北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。

雷鋒網雷鋒網