回顧·混合、安全對抗下人工智能設計原則
- 2019 年 11 月 23 日
- 筆記


今天分享的內容分為以下幾個方面,首先是同盾公司簡介,反欺詐面臨的高對抗問題,然後根據同盾的實踐經驗講一下反欺詐解決方案、人工智能應用的設計原則等。
一、同盾公司簡介


同盾科技成立於2013年主要做第三方智能風控和分析決策引擎,為金融、O2O等十來個行業提供風控、營銷、反欺詐服務。專攻領域有區塊鏈、大數據處理、網絡欺詐分析、機器學習、深度學習、人工智能、自然語言處理等。
二、反欺詐面臨的高風險問題

AI遇到的問題有薅羊毛、交易裏面的反欺詐,身邊有很多欺詐行為,如賬號盜用(釣魚網站、偽登錄網站)、垃圾註冊(薅羊毛,通過註冊大量賬號,規整利益到一起),盜卡盜刷主要是針對銀行,ATM磁卡機側漏獲取磁條信息中的賬號密碼。群控機器就是有很多賬號,將賬號和設備進行關聯,可以通過風控規則進行攔截,電信詐騙就是通過電話或者是短訊的方法持續去引導和誘騙受害者,進入到緊急危險場景,騙取金錢。金融卡套現主要是卡商和機構勾結,商用風險和信用卡風險類似。


同盾對全網30億設備進行欺詐團伙畫像分析,發現每日欺詐訪問比例8.55%以上,增長趨勢逐漸往高科技團伙作案發展,團伙規模逐漸擴大。這裡有個提示是當一個欺詐團伙由小發展到大,需要儘快將其攔截,不然後期危險會越來越大。作案手段逐漸多元化,每個行業的欺詐手段和方式都不樣,場景也不一樣。欺詐團伙分工也是越來越來明顯,早期只是對漏洞進行攻擊,現在做成一個產業的分工。控制很多虛假號碼,身份證無法虛假就是搜集,手機號碼等通過群控來薅羊毛,專業攻擊軟件實現目的,互聯網時代很多營銷活動初衷是好的,但是設計體系沒有完善,黑產就會利用這一點,包括前段時間土耳其匯率下降。

如果要對風險進行一個防控,要做幾個事情。首先要知道黑產是什麼、到底是怎麼做的、目的是什麼,第二個要知道系統有哪些漏洞,第三個就是有哪些工具去防控這個事情。如下圖所示,疑似黑產發生攻擊時,有四個時刻。第一個就是攻擊發生,平台受到威脅後會進行攻擊情報獲取、異常預警快速識別風險。平台發現風險、策略分析、攔截風險。當黑產發現被攔截,可能會想辦法繞過攔截繼續進行攻擊。這個過程是不斷循環的,不斷迭代更新,技術對抗也不斷加碼。從攻擊發生到發現風險,平台要儘早發現並預警風險,因此需要不斷完善預警系統,並收集情報;從發現風險到攔截風險,即我們需要分析數據現狀以及現在攻擊的態勢是怎麼樣的,通過分析產生新的策略並實施攔截。黑產攔截有幾種方法,一種就是實時,通過黑白名單機制。還有就是通過無監督或者半監督的方法,找到團伙特徵來做一些分析,由於數據和時效性無法實時上線,因此需要無監督方法實現,具體包括圖的計算,更高維的有監督算法做一個分類。
攔截到風險到黑產發現之前,可以做一些隨機策略從而延長機制。從攻擊發生到攔截,上面一部分平台是受攻擊的,底下是得到防禦和保護的階段。對於系統希望上面時間越短越好,下面時間越長越好,這樣平台受損就少。黑產的攻擊有好多種,而且同一個平台遭受不同欺詐團伙攻擊,發生時間、渠道、團伙大小、手段等都可能不同。
針對薅羊毛場景,具體分工為:商家會發佈一個優惠,黑產獲取信息發掘有利可圖進行攻擊。平台可能只有有限優惠券可以領,這樣黑產會讓很多人做這個事情,將其歸攏一起,獲取利益最後做利益分配。
三、反欺詐解決方案
上面梳理了黑產是怎樣的,有哪些手段,接下來講我們有哪些工具來進行防禦。人工智能並不是無所不能的,當然也不是完全依賴人工,因此協調人工運營、決策、人機協同,達到更快、更準的理念。結合業務場景、流程、風險問題設計,通過數據的驅動獲得整個人工智能算法的應用。如下圖所示,在這個過程中可用的工具分為無監督和有監督兩種。有監督包括分類、回歸等,對於反欺詐大部分是分類,回歸用的較少,分類算法有LR、貝葉斯、隨機森林或者GBDT。無監督方法更多用於預警、關係挖掘(圖挖掘LPI、標籤傳播)等。

機器學習算法開發流程如下圖,(1) 首先我們要定義明確業務目標,目標明確能夠很好的提升算法水平。依據業務場景特徵、行為做一些對抗分析,如薅羊毛在刷單和眾包裏面都有,也有可能群控設備,但是其反饋是不一樣的 ;(2) 然後數據分析,需要明確黑白樣本有沒有,數據缺失率、準確率如何,能否支撐目標的運行;(3) 特徵選擇,這決定了算法的效果。並不是所有的算法都可以使用,不同的特徵只適應特定的場景,需要依據業務目標和拿到的數據選擇特徵;(4) 算法訓練,前期準備好,時間可控,一般可收斂,如果不收斂就需要在前期工作做些調整;(5) 驗證測試,有監督中驗證測試比較簡單,分類就統計準確率和召回率。無監督中更多需要人去確認分類是否有意義,能不能解決問題;(6) 迭代更新。

四、人工智能應用的設計原則
為了儘早發現風險,應該如何做呢?
原則1:預警及早發現風險

(1) 實時監控與離線監控都是需要的,實時監控是線上調用量的結果、時間態勢,包括統計變量,但是這種無法得到多維信息。需要離線組合彌補
(2) 可靠的情報偵察;
(3) 時序分析:事件序列的模式是否異常,危險時段,依據事件特徵編碼進行挖掘;
(4) 趨勢分析,到底是否合理,均值預測;
(5) 統計監控變量,發現狀態異常。
舉例說明,時間序列指標的異常監控如下圖所示,我們可以發現有幾個攻擊發生,大約4月10日開始嘗試攻擊、試探,監測到4月16日線上實時調用異常,發現監測指標峰值。我們通過日常預警調用量的方案可以找出攻擊發生點,能夠快速對攻擊事件進行攔截、分析。

下圖所示,終端設備監測指標的時間曲線。上圖是用戶使用某一終端系統設備參數的用戶波動情況,下圖是終端設備參數的佔比。從監測數據可以發現這是一個群控現象。

原則2:需要多特徵、多維特徵補充分析準確度

(1) 事件前後關聯分析:目前大都是單場景策略攔截,但是可以在註冊和登錄搜集特徵,補充到後續交易和支付場景裏面,整體做特徵補充。
(2) 地理空間分析:wifi,gps等地理位置、地址文本處理等相關處理;
(3) 用戶操作行為:不是針對個人,而是群控設備的人和機器的差別;
(4) 畫像分析,黑產用戶畫像,黑產流竄於那些平台,是否有跨行業可能性,同一行業相互平台是否流竄。IP畫像,這個很難做因為可變,IP可能是公共流量出口。
(5) 關聯分析:團伙關聯,有價資產關聯,交易雙方關聯,事件關聯,相似特徵聚類形成圖譜進行分析。

欺詐風險特徵可能做得更細,上圖是支付中可能會遇到的風險,也有更深的。如垃圾註冊或者虛假註冊,地區可能是高危國家或地區的,團伙作案空間上是有流竄的,相互是有關聯,就是黑產地域性。還有就是交易行為異常,這是最重要的,這種很難逃避設備監控和IP監控。
同盾堅持的風控理念是跨行業聯防聯控,針對網絡團伙欺詐流竄現狀,跨行業聯防聯控,挖掘行業橫向數據維度信息。
原則3:人機協同的立體反欺詐體系,讓策略人員輕鬆應對

神經反應:脊椎神經反應(立即反應)針對黑白名單,反饋及時、攔截快速;腦迴路神經反應,這種是智能系統,因為系統從算法到上線周期很長,數據來源獲取長,訓練時間長,還有決策、上線 。還有缺乏專業人員,目前周期較長。
通過業務規則,專家分析決策經驗能夠及時攔截事件,因此是立體的防控體系。

項目發展是規則決策到有監督再到無監督發展關係,當出現風險,該規則很快就能進行分析,有監督在有標籤的時候就可以做,而無監督需要經驗和業務體驗的特徵,這樣做才有意義。
欺詐可能有已知欺詐,這種通過業務規則就可以判斷,對於未知欺詐模式需要有個異常監測,團伙需要有個網絡的分析,挖掘出所有信息。發生攻擊時,防護是靠業務預警系統還有線上策略、黑白名單儲備策略,離線時利用漏過的特徵,通過失敗和成功攔截構建無監督和半監督攔截來補充線上策略。

五、最後總結:
在與黑產作對抗時,推演是非常重要的。結合業務場景發現蛛絲馬跡,挖掘有效特徵;分析縱向事件序列、黑產畫像、檔案,設計多種智能算法框架;通過聯防聯控體系,挖掘橫向信息;構建多層級、多級別的立體智能風控體系。
作者介紹:
譚熾烈,同盾科技反欺詐算法總監。
本文由DataFun社區根據同盾科技反欺詐算法總監譚熾烈老師在2018AI先行者大會中分享的《混合、安全對抗下人工智能設計原則》編輯整理而成。
——END——