「回顧」機器學習在反欺詐中應用
- 2019 年 11 月 21 日
- 筆記
分享嘉賓:陳德建 新浪金融 高級模型演算法研究員 整理編輯:侯美娟 內容來源:DataFun AI Talk《機器學習在反欺詐中應用》
出品社區:DataFun 註:歡迎轉載,轉載請註明出處。
當前機器學習在金融行業已經運用非常廣泛,尤其在金融業的信貸領域。在實踐中,欺詐與信貸業務強相關,所以,反欺詐變成機器學習在信貸領域的一大應用。反欺詐一般會用到機器學習、深度學習以及圖譜關係,其中,機器學習與深度學習多是針對個人欺詐風險,而圖譜關係則多用於團伙欺詐風險的識別。因此,本次分享將介紹欺詐風險的特點以及機器學習、深度學習和圖譜在實踐中的應用。
一、關於反欺詐
(一)欺詐風險簡介
在信貸領域有兩類風險,一類是信用風險,一類是欺詐風險。信用風險主要是對借款人還款能力和還款意願進行評估,而反欺詐則是對借款人的目的是否正當進行判斷。
一般借款人出現信用風險,金融機構可通過風險定價和自有備付金進行防範,風險可控性較大。而當借款人在借款時便以騙貸或騙錢為目的,且金融機構未能及時識別欺詐,則會出現未能通過借款賺取利息,反而被騙走本金的情況,尤其無法識別團伙欺詐時,會在短時間內遭受非常嚴重的後果,金融機構面對此類風險的可控性便會非常小,所以欺詐風險是金融機構零容忍的。
(二)反欺詐生命周期簡介
信貸反欺詐要從防禦開始做起,所以應從用戶申請到放款整個生命周期的各個階段特點進行分析,針對各個階段採取具有針對性的反欺詐措施。其生命周期可參見下圖:

如上圖,設備與網路防禦是反欺詐的第一步,可通過設備和網路層面的檢測,防止用戶利用設備對金融機構進行欺詐;在第一層進行防禦了部分欺詐用戶後,再從用戶行為層、業務頻次層及業務事件異常層識別用戶是否有欺詐行為;再經過前四層之後還會通過複雜網路對團伙欺詐進行識別。
二、機器學習應用
(一)反欺詐規則的缺點
反欺詐一般通過兩種方式,一種是設定規則,另一種是通過演算法。
規則在反欺詐實踐中應用也較多,但是缺點也明顯,主要表現為:
1. 策略性較強,命中直接拒絕,而且黑名單本身的誤傷性也較強;
2. 無法給出用戶的欺詐風險有多大;
3. 未考慮用戶從信用風險向欺詐風險的轉移,尤其是在行業不景氣時。
以上缺點機器學習可以進行有效的避免,如可計算用戶的欺詐概率有多大,從而採取一定的措施爭取客戶,而不是直接拒絕,同時也可以通過模型計算用戶從信用風險轉移為欺詐風險的概率,從而金融機構可及時進行風險控制與準備。
(二)機器學習有監督模型
評分卡一般運用在信用風險評估,如:A卡(申請評分卡)和B卡(行為評分卡)等,反欺詐也會運用有監督學習,如評分卡(F卡),具體如下:

做模型的過程中,特徵很重要,特徵決定模型的效果。反欺詐模型需要從欺詐的角度來做特徵,要注意與信用特徵區分開,以免與A卡和B卡的耦合度過高。模型算出的多是概率,一般會將用模型算出的概率映射到分數,具體如下圖:

(三)部分常規機器學習在反欺詐中應用
在反欺詐中用到的機器學習主要有下圖幾種。其中,iforest通常用來做數據離群點的異常檢測,在應用方面,金融公司可根據自身的規則和演算法,將檢測出的離群點在評分卡入模的數據方面,進行加權或演算法調整。svm通常也用來做異常檢測;arima則用來作時間序列預測分析;根據現在信貸數據壞樣本較少的特點,knn和kmean可以用來做聚類;隨機森林則是在做異常檢測時進行分類,以上機器學習可通過部落格進行更多了解,此處不進行深入講解。

三、深度學習應用
此部分對人工神經網路(ANN)和時間序列進行簡單介紹。
神經網路通常需要大量彼此連接的神經元,每個神經元通過特定的輸出函數,計算處理來自其他響鈴神經元的加權輸入值。神經元質檢的資訊傳遞強度,通過加權值定義,演算法會不斷自我學習,調整加權值。神經網路演算法的核心是:計算、連接、評估、糾錯和瘋狂培訓。
時間序列部分介紹RNN(循環神經網路)和LSTM(長短記憶循環神經網路)兩種演算法。LSTM是RNN的優化版,在特徵較多時,RNN計算量會呈指數式增長,其計算複雜度也會增加,如下圖:

LSTM則是在RNN的結構以外加入遺忘閥門(forget gate)、輸入閥門(input gate)和輸出閥門(forget gate),其通過這些閥門節點實現記憶功能,改善了RNN在計算過程中會出現的問題,如下圖:

時間序列在信貸中有兩個比較重要應用場景,一是B卡(行為評分卡),一是異常檢測。我們著重介紹LSTM在這兩個場景中的應用。在行為評分卡的應用中,當用戶在金融機構進行多次借款時,可以將其以往的借款行為通過統計方法或其他相關方法生成embedding進行LSTM計算。異常檢測的應用可參考下圖:

另外在使用LSTM時需注意4點:
1. 應限制每一個時間序列embedding的長度;
2. 對缺失數據做補0操作;
3. 針對離散變數的embedding盡量不要做onehot處理;
4. 樣本量少時,應通過模擬模型進行異常檢測評估,模擬模型能夠有效解決信用風險轉欺詐風險的導致模型失效的問題。
四、圖譜相關應用
圖譜主要用來防止團伙欺詐,也可以根據用戶的周邊關係判斷用戶的好壞概率。此次介紹三種圖譜關係在反欺詐中的應用。

其中,常規統計一般不會直接用規則,而是將規則做成特徵,再帶入模型進行統計。比如一度聯繫人中有多少黑中介,一度聯繫人中的逾期人數有多少,此類特徵的KS較高且有效。常規統計一般會用到社群分割和強連通演算法。而種子傳播層面則需要用到trustrank,關係embedding則可以通過衍生變數將關係向量化,將向量化的關係帶入模型進行進一步的分析和統計。
(一)常規統計
因為資源限制或提高投資回報率的原因,黑產一般會最大程度的利用已有資源,比如,重複的使用現有設備和資訊進行多次貸款申請,這樣就會出現同一手機號碼、登錄IP或硬體設備出現在多個申請資訊中,形成關聯網路。常規統計的運用,是通過將數據進行關聯,形成關係網路圖,然後使用社會關係網路分析工具,分析關係網路圖中是否有大量共用設備等拓撲結構。
(二)複雜網路embedding演算法
有時候機器無法識別資訊,需要將資訊向量化(embedding),將資訊向量化後才可以做後續的演算法操作。embedding的方法有很多,此次僅介紹node2vec一種。node2vec的原理是前端為隨機遊走(random walk),後端為word2vec。random walk則取樣,將概率最大的關係取樣出來並生成類似文本的序列數據,這類序列數據相當於詞的共現性,對詞的共線性可以做word2vec,這裡的word2vec與NLP的word2vec無差異。Embedding後會生成50維到128維的向量,之後進行聚類和分類的操作,具體如下:

(三)trustrank演算法
Trustrank是pagerank的升級版,當前我司用的trustrank並不是傳統的trustrank,而是改變其中的某些演算法。trustrank是傳播關係的一種演算法,根據人與人的關係進行判斷和識別。比如,小紅和小明是情侶關係,當小紅違約時,小明的違約概率會增大,根據類似傳播關係用來做定額和模型的衍生變數。Trustrank的使用需要建立起圖譜關係,數據量小時,spark的sparkgragh對trustrank的圖譜關係支撐較好。

Trustrank涉及種子用戶(含白種子和黑種子)的定義,當前的大多使用中只有一種傳播方法,也就是白種子只傳播白用戶,黑用戶只傳播黑用戶。但是其實可以進行變數的衍生和演算法的改進,比如一個用戶既跟黑中介有聯繫,又跟高凈值用戶有聯繫。
以下圖為例,trustrank為種子用戶(下圖的1和2)定義一個初始值,每次傳播後會改變矩陣的值,最後收斂得到trustrank的分。

以上圖譜關係可以進行改進和升級,如在傳播的過程中可以加入通訊錄關係,號碼通,老鄉、目前所在地、興趣、職業等,形成以用戶畫像傳播的好壞用戶,在不同的用戶畫像傳播中做不同的權重傳播。
作者介紹:

陳德建 新浪金融 高級模型演算法研究員
美國德克薩斯州大學碩士,本科畢業於北京理工大學,原百度高級演算法工程師,3年NLP深度學習演算法工作經驗,後參與微博借錢模型團隊組建,搭建反欺詐和複雜網路團隊,整體負責反欺詐和複雜網路等工作,擅長文本及關係圖譜挖掘。