帶你了解關係網絡在反欺詐領域的常見應用
- 2019 年 11 月 11 日
- 筆記

來源:CSDN博客
作者:mishidemudong
近年來搞金融詐騙的越來越厲害啦,除了團伙化、組織化的趨勢,有的居然每個月還有固定的推廣費呢。那麼,如何從數據的角度去鑒別詐騙團伙呢?以下這篇文章,介紹了如何利用關係網絡,通過無監督學習算法,挖掘詐騙團伙的特徵,從而識別詐騙團伙的反欺詐技術。
從常見的兩種反欺詐模型說起
金融欺詐,一般是指採用虛構事實或者隱瞞事實真相的方法,騙取公私財物或者金融機構信用的犯罪形式。幾乎所有涉及金錢和服務的商業模式都會受到欺詐的攻擊。通信、保險、貸款和信用卡申請是一些最容易出現金融欺詐的領域。
目前並沒有一個通用的反欺詐框架可以識別並防範所有形式的欺詐。在每一個領域,金融欺詐都有不同的形式和特徵,因而,一個應用於信用卡申請的反欺詐模型並不能直接應用於保險領域。
一種最常用的反欺詐模型,是通過建立一個規則引擎或者機器學習模型來描述欺詐行為的特徵,從而將欺詐行為從正常操作中區別開來。在反欺詐規則引擎中,這些甄別欺詐行為的規則依賴於從大量歷史案例中總結出來的「專家知識」。例如,如果一個人申請貸款所用的手機號與其常用的手機號不一致,則這筆申請的欺詐風險就被認定稍高一些。
另一種則是反欺詐機器學習模型,它指的是採用數據挖掘方法,基於歷史數據(即,已知的欺詐申請和正常申請的數據)而建立的分類模型。這類模型的訓練往往需要大量數據。
兩者有何區別?上面提到的規則引擎可以看作是一種特殊的最簡單的機器學習模型:決策樹模型。決策樹模型具有極好的可解釋性,因而,即使數據量不足,也可以通過專家知識來補全規則集。而廣義上的反欺詐機器學習模型往往指的是採用更複雜的算法建立的模型(如隨即森林、深度學習等)。這些模型的訓練需要大量的歷史數據並且其結果通常很難解讀。
不論是規則引擎還是機器學習模型,都是從歷史案例中發現金融欺詐時重複出現的個體行為模式。這個方法在很多領域被證明為有效(例如,用於審核個人還款能力意願的信用評分模型),然而在解決金融欺詐問題時表現一般, 原因有兩個:
其一,金融欺詐的模式隨時間不斷演化和發展,而不僅僅是重複出現在歷史案例中的個體行為模式;
其二,隨着反欺詐技術的進步,金融欺詐越來越難以由個體完成,而是需要通過團伙有組織的進行。
關係網絡提供了全新的反欺詐分析角度
基於上述金融欺詐發生的兩個特點,採用關係網絡進行反欺詐檢測變得越來越重要。關係網據指的是一種基於圖的數據結構,由節點和邊組成,如下圖1所示。每個節點代表一個個體,每條邊為個體與個體之間的關係。關係網絡把不同的個體按照其關係連接在一起,從而提供了從「關係」的角度分析問題的能力。這更有利於從正常行為中識別出到異常的團伙欺詐行為。

圖1
關係網絡的結構取決於如何定義個體與個體之間的關係。如果人與人存在「關係」指的是彼此認識,那麼最終的網絡結構將是一個無標度網絡,其典型特徵是在網絡中的大部分節點只和很少節點連接,而有極少的節點與非常多的節點連接。如果將「關係」定義為親屬關係,則最終的網絡結構將是一個個非連通的子圖,每個子圖代表一個家族。
在解決實際問題的時候,關係的定義需要依據業務需求並且常常極為複雜。例如,某市公安局為了摸清犯罪嫌疑人的團伙,定義了24種人與人之間的關係。在反欺詐領域,如何定義「關係」更是需要保密,這是為了避免欺詐團伙採取針對性地防範策略,本文對這部分內容就不做過多的說明了。
圖2展示了由從某一線城市抽樣的20,000餘條貸款申請數據所構成的關係網絡。因為所定義的「關係」均為強關係,所以圖的結構不是一個連通的無標度網絡,而是由一個個孤立的「團」組成的網絡。其中,大部分的「團」由兩個個體組成,他們之間通過某種關係相連。個別的「團」是由幾十甚至上百個體組成的具有複雜結構的網絡。

圖2
網絡分析在反欺詐中的獨到運用
接下來,我們來討論關係網絡在反欺詐中的應用場景,主要分為監督模型和無監督模型兩種情況。所謂的監督模型,指的是在已知「好」和「壞」標籤的前提下,嘗試從歷史數據中,挖掘出欺詐團伙的典型特徵和行為模式,從而能夠有效的識別出金融欺詐團伙。監督模型雖然在預測準確性上有不錯的表現,但是,實際情況中,「好」和「壞」的標籤往往很難得到。因此,在沒有標籤信息時,無監督模型分析也變得尤為重要。當然,本文提到的分析方法只是關係網絡在反欺詐場景中的冰山一角,更多的算法模型需要結合實際業務需求進行設計和開發。
典型運用一:異常檢測
異常檢測是在無監督模型學習中比較有代表性的方法,即在數據中找出具有異常性質的點或團體。在檢測欺詐團體的情況下,異常檢測被認為是比較有效果的。以貸款申請為例,許多團伙會選擇共享一些申請信息,如提供同一個皮包公司的地址作為公司信息,或者聯繫人電話重合程度高。因此,在關係網絡中,大多數的正常的個體應該是獨立的節點,或者與另一個節點組成規模為二的團體(在這種情況下,多數可能為家人或親友關係)。若出現三個點以上甚至十幾個點關係密切時,則這些團體可被歸為異常。上文中的20,000筆貸款申請組成的關係網絡中含有300多個團體,團體規模分佈由下圖所示,其中大部分團體的規模較小,當團體規模超過某一閾值時,其可被認為異常。

圖3
我們對團體規模大小和欺詐度的相關性進行了分析。其中,欺詐度的定義為:欺詐度=團體中欺詐申請者的數目/團體中申請者總數。我們通過行業內的網貸黑名單數據來判定某一個體是否為欺詐申請者。相關性結果如下圖所示,其中,橫坐標表示團體規模大小,縱坐標表示欺詐度。可以看出,當團伙只有兩個人時,欺詐度的中位數是0,而當規模變大時,欺詐度陡然增加。當團體規模大小為三人時,欺詐度最高,達到30%,其次為規模超過六人的團體。

圖4
異常檢測並不能夠明確的給出一個團體是否欺詐,但是可以通過這種方法排查出可疑的團伙,從而進行調查。該算法並不是基於歷史數據挖掘隱藏的欺詐模式,因而常常能夠有效地識別出新出現的未曾記錄的欺詐行為。
典型運用二:團體分群
分群是一種常常被用於客戶精準營銷的無監督聚類算法,根據客戶各個維度的信息,將其歸併於某一特定群組,並對不同群組的客戶採取差異化的營銷策略。除了用於精準營銷,分群算法還可以用於離群行為的檢測,即,檢測哪些客戶的行為與同一群體的其他客戶不同。這些離群行為或是預示着這些客戶處於某些特殊事件情境中,或是預示着欺詐行為。這一部分主要和前文提到的異常檢測相關,這裡不再贅述。
與客戶分群不同,團體分群不僅依賴於團體中每個個體的特徵,還依賴於整個團體作為一個整體的特徵。這一方面使得團體分群擁有足夠豐富的數據維度,另一方面也增加了問題的複雜性。一般來說,團體的特徵可以分為 (1)和網絡結構相關的團伙拓撲特徵以及(2)和個體信息相關的團伙實體特徵這兩個大的維度。其中,團體的拓撲特徵包括團的節點的數量、平均自由度、團體中節點間最長的最短路徑等;團的實體特徵包括團中男女比例、最大年齡差,平均年齡、團體總資產、團體總負債等。
團體分群即是對給定網絡中的團體依據以上特徵進行區分,從而挖掘有潛在欺詐風險的團體的方法。舉一個簡單的例子,以團體中的男性佔比和年齡差者兩個特徵來對網絡中的團體進行分群。作為以家人關係而形成的團體,一般由三人形成,多為兩男一女或兩女一男,男性佔比33%或67%,並且年齡差一般為20-30歲。具有這種性質的團體一般為家庭團體,因而風險性較小。但對於人數較多,男性佔比高,而且年齡差較小的團體,則有可能是欺詐團伙,需要進一步調查。
實際問題中,描述一個團伙的數據維度非常豐富,有時可多達數十個,這就對分群造成了困難(在高維空間中,尋找點的集群並不是一件容易的事,俗稱「維度災難」)。一個常用的解決方法是先對高維數據進行降維,然後再在低維空間中進行聚類。圖5是對一組數據中由貸款申請構成的300多個團體進行分群的結果。在這個分析中,我們用男女比例、最大年齡差、有車個體佔比、有房個體佔比、有貸款個體佔比和買理財產品個體佔比這六個維度對團伙進行描述。我們採用t-SNE(t-Distributed Stochastic Neighbor Embedding)算法對高維數據進行降維和DBSCAN聚類算法對低維數據進行分群。由圖5可見,在低維空間中,確實存在明顯分隔的集群,這說明團體分群在實際操作中的可行性。

圖5(每一個點代表一個團體,上述數據可以分為八個集群)
我們對圖5中每一個集群進行分析。集群1中的團體男女比例1:1,年齡相差0-5歲,集群中無人有貸款或買理財產品。這個集群很可能描述了由年輕情侶構成的團體。對於集群2中的團伙,男女比例2:1,年齡相差15-30歲,每個團伙中平均有一人有車和房,並且背有貸款,這個集群很可能描述了由父母子女構成的「團伙」。按照同樣的方法可以對圖5每一個集群進行分析,這裡不一一贅述。儘管我們沒有「好」、「壞」標籤,無法得知哪個集群含有大量欺詐團伙,但是我們可以依據經驗和專家知識篩選出可疑的集群,為進一步調查做好準備。例如集群6中全部由男性「團伙」構成,年齡相差0-10歲,團伙中大量個體都背有貸款。這個集群的欺詐嫌疑就比其他集群要高一些,下一步就可以繼續對其進行進一步的調查。