一台電腦加一張表格,為何破不了洗錢案?

  • 2021 年 10 月 8 日
  • AI



分散式圖計算:一場對演算法的升維革命

作者 | 青暮

編輯 | 岑峰

何謂洗錢?其實就是讓手裡非法來源的金錢,經過多重轉手,最後回到自己手上,並且最後一筆交易的性質是合法的。

我們把參與其中的人都看作一個點,每一筆交易都會通過一條邊連接兩個人,整個洗錢過程,就形成了一個閉環。

要在一群人的交易記錄中認出這樣的閉環,需要耗費多少資源?

我們假設監測對象的交易都記錄在一張表格上,事實上,給你一台電腦,加上一個表格數據處理系統,也不一定能夠解決這個問題。

為什麼?

1


局限:表格的低維性

互聯網時代的支付行為,早已不再局限於一個幾十萬人口的小小城鎮,,而是跨越了城市、省份、國家,形成了擁有億級節點的巨大網路。很多黑產和犯罪行為,就隱蔽在複雜的支付鏈條背後。

為了在這張網路上找到涉嫌洗錢行為的閉環,我們需要把它進行切割,在大量伺服器組成的集群里分別存儲,並高效地進行計算。為此我們需要大數據技術的支援,也就是將大量廉價電腦連接起來同時運行的能力。

但僅有這些還不夠,根源在於數據的表示形式——表格。

表格數據是一種關係型數據,其數據往往是同質的,一張僱員表記錄的就是所有僱員的資訊,一張設備表記錄的就是所有設備表的資訊。

這種數據形式的每一項數據如果都是獨立的,就能很好地存儲和表示。但如果涉及了數據項之間的相互作用,就會變得複雜。

比如在表格數據中,對於A的鄰居和A的鄰居的鄰居的查詢,就很可能需要非常不同的程式碼來實現,因為這裡面涉及到的鄰居、鄰居的鄰居等關係的表示,在表格形式上的呈現是非常不同的。同時隨著鄰居的增加,訪問數據量是指數增加的,其性能也指數級降低。

所以,在人員跨度很大的洗錢行為中,因為交易數量的劇增,表格計算很可能永遠檢測不出來。

其實在我們的思維中,從一個節點連續跳到其它節點時,每一步都是相同的過程。很自然地,我們也希望能有一種新的數據形式可以很直觀地表示這種過程。

圖,就是我們剛好需要的數據形式。

圖不是影像,而是由頂點和邊構成的數學對象。

針對圖的數學即圖論。圖論起源於18世紀歐拉對哥尼斯堡七橋問題的研究,當時歐拉在這些橋上散步的時候想到了一個數學問題:如何不重複地走過七座橋。

這個問題抽象出來,就成了下圖中的一筆畫問題。

此外,著名的四色問題其實也是一個圖論問題。

圖論經歷了兩百多年的發展,經由眾多數學家乃至電腦科學家不遺餘力的發展,成為了我們解決很多實際問題的強力武器。諸如電腦晶片設計、語言資料庫、分子計算、社交網路謠言傳播等問題,都可以建模為一個圖論問題。

反洗錢問題也不例外,正如前文所述,這些交易行為形成的網路,就是一個圖。

圖數據是一種非關係型數據,也就是說,其存儲對象也就是頂點可以是非同質的。對於反洗錢問題,我們不僅可以記錄人的資訊,還可以記錄企業的資訊,以及人與人、企業與企業、人與企業之間的關交易資訊。

相對於表格數據而言,圖數據的每個頂點包含的資訊通常維度高得多。

從根本上來說,圖數據是對表格數據的升維。

在圖數據中,只需要用查詢A的鄰居的程式碼,再迭代一次,就可以查詢A的鄰居的鄰居。

這是一個典型的圖計算過程,圖計算是以圖作為數據模型來表達問題並予以解決的這一過程。以高效解決圖計算問題為目標的系統軟體稱為圖計算系統。

在數學形式上,圖計算也帶來了非常直觀簡潔的理解。由於圖和矩陣天然的對偶關係,因此線性代數自然地成為了圖計算的數學語言。

雲計算提供了分散式、大規模的電腦集群能力,圖計算是在大數據上再提升了一層,處理的不再是二維的表格數據,而是一個複雜的圖。

就像深度學習可以直接處理影像數據一樣,圖計算正在引領一種新的計算範式,甚至是新的數學、邏輯範式,其飛躍性不亞於在多媒體時代,我們的交流從序列化語言到二維影像的轉變。

自18世紀的哥尼斯堡七橋問題以來,圖計算一直局限於純人工的學術、理論研究,或在單機上的工程研究。

事實上,如果是簡單的反洗錢問題,確實可以用一台電腦和一個表格數據處理系統來解決。

直到互聯網時代和大數據時代。

這裡有一個重要的節點,也就是Google在2003、2004年相繼發表了GFS、MapReduce論文。

通過這兩篇論文,人們知道了我們在處理大規模計算任務時,不是必須依靠單個昂貴的伺服器的技術升級,還可以用多個廉價的伺服器搭建出具有非常強大計算能力的分散式計算系統,進而用於處理海量數據。

這不僅支援了Google的核心業務即搜索引擎的發展,後來基於這兩篇論文,人們還開發出了Hadoop開源資料庫系統。

如今,幾乎每一個互聯網企業,乃至許多開始大數據轉型的傳統企業,都用Hadoop支撐著他們的大數據處理系統。

同樣,在大型集群的支撐下,圖計算也成為了一個極其龐大的系統,涉及的每一個領域:圖存儲、圖資料庫、圖計算、圖深度學習等等,都是一門大學問。

2


發現閉環:從圖存儲到圖計算

從被存放到電腦,到被檢測出洗錢閉環,一個支付圖網路經歷了什麼過程?

總體而言,一個圖要先通過圖存儲引擎寫入存儲在圖資料庫中,然後被在圖計算引擎中通過圖演算法模型讀取、計算,最後輸出計算結果。而這個圖演算法模型可能是人工編程的,也可能是通過數據訓練得到的圖深度學習模型。

我們以一個圖計算全棧系統GeaGraph來展開。螞蟻集團計算存儲首席架構師何昌華介紹道, 「GeaGraph包含了7個組件,基本都由螞蟻集團自主研發,包括圖存儲引擎PhStore、圖資料庫GeaBase、圖計算引擎GeaFlow、圖深度學習系統GeaLearning,它們可以串聯起一個完整的技術鏈路。此外還有單機版本的圖資料庫GeaBase Lite,可以在單台電腦上運行,用於離線圖計算的GeaComputing系統,以及圖研發平台GeaMaker。」

當然,分散式+圖計算並不能一勞永逸地解決反洗錢問題。由於問題本身的大規模和動態屬性,我們將面臨幾個主要的難題。

事務性:金錢守恆

大規模問題必須採用分散式計算求解,而分散式存儲會導致事務性問題。

在一個圖裡面,某個人新增了一筆交易,會影響圖裡面的好多條邊。這種情況下,需要保證數據一致,包括如何保證數據的事務性。

所謂事務性是指,比如一個銀行賬戶里本來有100元,不應該出現兩個人各來取走100元的情況,否則就違反了事務性。而取錢的兩個人的賬戶資訊可能分布在不同的伺服器上,這就涉及到伺服器的通訊。

在將圖數據進行了大規模的分散式化以後,如何高效地進行圖數據的存儲和通訊,這是圖資料庫領域的一個普遍性難題。

具體來說,我們需要將一個大規模的圖分割成多段,也就是多個子圖,然後放到多台電腦上,每台電腦單獨只能對子圖進行計算,當要計算全圖的某些性質的時候,比如反洗錢分析,可能不止涉及一台電腦上的子圖,這些子圖之間是需要通訊的。如果不能保證事務性,那麼計算結果出錯就在所難免。

「儘管還沒有完全上線,但我們基本上算是解決了這個問題,這個在業內我們是唯一的。」何昌華說道。

這得益於GeaBase的數據強一致性和分散式事務能力。GeaBase是一個金融級分散式圖資料庫,能夠實現對超大規模關係網路毫秒級的複雜查詢及變更,具有金融級高可用性。

GeaBase單集群能支撐萬億邊規模的圖數據,寫入和查詢吞吐量超過每秒百萬次,99.9%查詢和寫入延時小於20ms。

GeaBase Lite則是GeaBase的單機版本,是一個支援事務處理和強隔離性的單機圖資料庫,可以單機支援百億邊的圖數據,而且集成了全圖迭代分析能力,可以同時滿足用戶對圖的複雜分析、快速查詢和可視化的需求。

PhStore是GeaBase背後的存儲引擎。它基於完美哈希(Perfect Hashing)技術,屬於業界首創,在圖的讀取性能上可以達到常數時間複雜度。單個集群可存儲PB級別的數據,比業界通用的HBase 吞吐率提高5倍以上。

演變:分散式欺詐

反洗錢是一個博弈問題,道高一尺、魔高一丈,問題本身也是動態的,在不斷演變。

如果一個人的欺詐行為容易被發現,人們就會想到用團伙欺詐去提高隱蔽性和監測難度。

除了讓閉環的跨越性變大,甚至這些圖的頂點背後,有可能是正常用戶,從而極大提高了頂點的潛在數量。

「有很多洗錢團伙通過跑分平台,租借一些合法賬戶,使得很多正常賬戶被動參與到這種黑灰產交易中。在這種情況下,反洗錢的難度更大。」

欺詐,也成了一種分散式行為,這種行為具有分散賬戶和長鏈條的特點。

團伙欺詐的特點不僅在於規模,它還會不停變化,針對這種問題的圖計算被稱為持續圖計算。

如果能把握演變規律,也能帶來好處。在觀察團伙演變的過程中,可以識別出團伙中的不變元素,也即是關鍵角色,從而可以快速精準地定位團伙核心,實現更有效的防範。

博弈永不停息,反洗錢問題在未來或許會經歷更大的演變。對於變化無窮的數據,數據學習的方式自然更合適。何昌華說,針對反洗錢問題的圖深度學習已有探索。支援圖深度學習的系統是GeaLearning。

GeaLearning是以圖為核心的超大規模分散式深度學習系統。其主要特點包括:支援多種靈活圖模型訓練方法(不限於global-batch和mini-batch),不限制圖神經網路層數和節點鄰居個數,以模型並行為核心的混合併行執行方式等。

深度:六度爆炸

分散式的欺詐行為,或者說分散賬戶和長鏈條的資金分散、聚集行為,使得洗錢行為涉及的頂點數大幅增加,為了檢測出不斷擴大的閉環,就勢必要增加圖計算的深度。

這個深度要如何理解呢?

六度空間是一個很知名的概念,也就是你可以通過平均六個人的聯繫鏈條認識世界上任何一個人。

在這個問題中,可以估算一下,每增加一個度,可聯繫的人會增長多少倍。當度為1的時候,這個數量範圍大概為從人類的鄧巴數(一個人維持緊密聯繫的上限)即150,到社交APP朋友數量即數千人。而只需增加到6度,這個人數就變成了78億(當前世界總人口)。因此,這個過程必然至少是指數級增長的。

「過去不基於圖來進行反欺詐、反洗錢的時候,挖掘的關係深度非常有限,計算也很低效。」

另外,有些團伙會在自己的大量正常交易中混入部分洗錢行為,比如藝術品拍賣等等。這些人可能有多重身份(大量帳號),同時違法交易也很低頻,交易路徑複雜。「障眼法」和稀疏性進一步增加了監測的難度。

「要實現這樣的檢測,需要非常深層的圖計算能力,傳統方法很難做到,或者策略過於複雜導致難以推廣。」

在GeaGraph上,部分圖計算問題能夠達到10度以上的深度,比如反洗錢問題。「然而,如果要採用圖深度學習方法,就會變得非常困難。目前幾乎所有的圖深度學習所探索的圖深度只達到了2度,能夠探索到3度的技術非常稀有。」何昌華說,螞蟻集團的圖技術目前已經可以做到10度下探,目標是無限制下探。

為了支援這樣的探索,螞蟻集團研發了GeaMaker平台。GeaMaker是一站式圖計算研發探索平台,融合了GeaGraph的底層系統的能力,為用戶提供了具備探索、模擬、性能評估等功能,集在線查詢,近線計算,離線分析和圖學習於一體。

實時:微積分思想

監測洗錢行為是為了防範,為了能夠及時遏制這類事件的發展,必須及時發現。因此,圖計算系統的實時性是不可或缺的。

但在大規模的圖計算場景中,延時問題是非常嚴苛的考驗。「同一個人如果要在短時間裡做兩筆交易,第一筆交易就必須非常快地完成,通常得是數十毫秒級別的響應水平。」

另外,如果優化做的不夠好,檢測到一個洗錢閉環通常需要一天的時間。「但在理想情況下,我們希望能夠實現秒級檢測。」

舉個更加簡單的例子,你在社交應用上做的一個簡單的交互行為,就涉及到了跨越伺服器的實時通訊。「比如在螞蟻森林中,收集了朋友的能量後,對方立刻就能實時看到,這對時效性以及數據一致性的要求非常高,但這兩個人的節點資訊原本很可能存儲在不同的伺服器上。」

要滿足這種實時性,流式計算是非常有效的方法,其基本思想和微積分相似。

在微積分中,y(x+Δx)-y(x)其實是一個無窮級數,但我們可以只保留第一個項,來近似地通過已知的y(x)的值,來計算y(x+Δx),即y(x+Δx)=y(x)+AΔx。

流式圖計算分為兩步,即流計算和增量圖計算。

流計算就是事件檢測,增量圖計算就是性質檢測。「比如在進行欺詐檢測的時候,我們不會對每一筆交易都做一次圖計算,這會造成極大浪費。而是會先檢測交易中的額度,當交易額超過一定範圍的時候,系統判斷存在可疑行為,就會引入欺詐檢測的圖計算模型,來看看涉及大交易額的幾個賬戶是否真的涉嫌欺詐行為。這需要將流計算和圖計算深度地融合才能做到。」

要使得流式圖計算能夠實時進行,還需要將全圖計算轉換成增量圖計算。也就是說,增量圖的計算結果對於全圖計算的改變也只是一個微小的增量。

支援流式圖計算的是GeaFlow,GeaFlow是螞蟻集團自研的流式圖計算引擎,支援秒級6度以上的流式子圖匹配和秒級全圖時序增量圖計算。

全圖計算需要較長時間,可以離線完成,增量計算因為涉及子圖的規模小很多,從而能夠實時進行。

這就要依賴於離線圖計算系統GeaComputing,GeaComputing是由螞蟻集團在清華大學研製的Gemini和ShenTu離線圖計算系統上進一步優化的分散式圖計算平台,支援萬億級圖數據,能夠為用戶提供高效的複雜圖分析能力。

GeaComputing通過使用塊式劃分策略,流式消息處理等手段降低記憶體需求。其性能優於業界通用的GraphX系統百倍以上,記憶體佔用僅為其十分之一。

要使得流式計算能夠實時進行,還需要將全圖計算轉換成增量子圖計算。也就是說,增量的計算結果對於全圖計算的改變也只是一個微小的增量。而全圖計算需要較長時間,可以離線完成,增量計算因為涉及子圖的規模小很多,也能夠實時進行。

然而,數據更新亦可能「牽一髮而動全身」,從而引發類似蝴蝶效應的現象。

蝴蝶效應是指在一個動態系統中,初始條件的微小變化,將能帶動整個系統長期且巨大的鏈式反應,是一種混沌的現象。

增量的影響本身也是非常難以把握的事情,可控性難以保證。「一個數據更新後,可能影響到圖裡的很多個頂點;或者多個數據同時更新時,還會互相影響,這時候在多個伺服器上如何保證數據一致是個難題,有時候我們甚至會以數據不一致作為妥協手段。」

從2018年開始,螞蟻集團在基於資金網路、中介網路上的典型欺詐檢測上已經能做到百萬吞吐量下的毫秒級響應,「相比之下,傳統方法可能需要幾個小時或一天才能輸出結果。」

到2019年,螞蟻集團在實現個體挖掘的基礎上,延伸到了欺詐團伙的檢測,而且是實時的。

權衡:成本是永恆主題

最後是權衡問題。

性能和速度的權衡是技術優化的一個永恆主題,不同的權衡適應了不同的應用場景,背後是成本的考慮。偏向性能的一般是專用技術,偏向速度的一般是通用技術。

圖計算偏重於記憶體和外存的權衡。

儘管記憶體載入的圖計算很快,但大規模的圖數據難以全部載入到昂貴的記憶體資源上,因此將圖數據載入到便宜的外存(比如SSD)上,就成了非常重要的探索方向。「當然,這也會帶來數據訪問上的速度限制問題(也就是吞吐量),以及圖計算邏輯的修改和優化方面的額外工作。」

另外一個權衡是適配性方面,典型的就是計算和通訊的權衡。如果圖的關聯比較強和密集,就不太適合做太細的分割,反之亦然。另外,如果需要更加靈活的可擴展性,則必須偏重通訊方面。

比如在反洗錢過程中,我們可以將全量數據存放在SSD上,只將頻繁訪問的數據存儲在記憶體里,從而達到成本和性能的平衡;另外,對於記憶體需求量不大的圖演算法,我們就將它運行在單機上以提高效率,只有單機無法運行的演算法才使用分散式,這樣就達到規模和性能的平衡。

通過克服上述困難,螞蟻集團保證了反洗錢過程中的數據事務性和一致性,能夠識別團伙洗錢,並且不受深度問題帶來的計算量爆炸困擾,得以實時監測和防範洗錢行為。

2020年起,GeaStack應用於螞蟻集團支付業務,在已有策略模型的基礎上,通過引入圖模型,反欺詐稽核資金額增加了6%。

2021年,GeaStack應用於螞蟻集團反洗錢分析,覆蓋支付寶全部資金交易,每天計算8億客戶過去180天大約200億左右邊關係,將客戶資金流向和關係可視化,對疑似團伙類犯罪風險識別能力提高94倍多,風險審理分析效率提升90%。

通過不同的權衡和多樣的演算法,螞蟻集團也得以適應不同類型的圖計算難題。

3


GeaGraph:百鍊成金

支付涉及到了每個人,以及人與人之間的關係,這些事件能很自然地構成一張張圖。螞蟻集團的核心業務是大數據金融,天然和圖計算有著密切聯繫。

螞蟻集團從2015年初開始組建圖資料庫團隊,2016年初發布第一個圖資料庫版本GeaBase。

2016年6月,新版支付寶上線,GeaBase迎來了第一筆流量。

接下來幾年,從支付寶大改版到新春紅包再到雙11,GeaBase迎來了業務的綻放期,到2019年雙11,GeaBase雙11主鏈路上單集群規模突破萬億邊,點邊查詢突破800萬QPS,平均時延小於10毫秒,成為支付寶核心鏈路上非常重要的一環。

「在GeaBase的基礎上,通過全棧技術系統GeaGraph,螞蟻集團解決了圖數據分析面臨的大數據量、高吞吐率和低延遲等重大挑戰。」

GeaGraph支撐了螞蟻集團的支付、數金等眾多關鍵應用場景,單集群達到百億個節點、萬億條邊的海量數據規模,為螞蟻集團的風險控制、反洗錢、反套現、金融案件審理、信用分數等業務提供穩定的決策能力。

搜索推薦涉及社交網路的購買行為的關聯,比如可以根據你的朋友的購買喜好,推測出你的購買喜好,這類問題也有非常強的圖屬性,非常適合應用圖計算技術。

但螞蟻集團並沒有在這個領域布局。為何要深耕金融,而不是先在搜索推薦等應用上大規模落地?

何昌華表示:「這類問題通常涉及的深度不大,一般是1-2度。而在金融風控、電網規劃中,經常能遇到對深度要求非常高的問題。這對於我們的技術錘鍊是非常好的場景。同時,在這些「煉獄」場景錘鍊出來的技術,也能很容易地應用到簡單的場景里去。」

如此高難度業務場景的考驗,正是螞蟻集團的圖計算擁有大數據量、高吞吐率、低延時的計算能力的秘密。其中在低延遲方面,GeaGraph一般能支援5、6度深度的毫秒級計算。

得益於這種攻關精神,螞蟻集團還在圖資料庫性能測試的LDBC基準上,以及斯坦福圖深度學習推理基準(OGB)上拿到了世界第一。

「到目前為止,可以說,無論在圖計算規模、圖資料庫規模,以及涉及的圖計算問題的複雜度,和在這之上支撐的業務量,GeaGraph都是世界第一水平的。」

在剛剛結束的2021世界互聯網大會上,螞蟻集團大規模圖計算系統GeaGraph獲得世界互聯網領先科技成果獎。這個獎項代表著世界範圍內最新科技的最高水平。

4


螞蟻集團:從點到圖

從點到圖,布局圖計算的企業也形成了一張圖網路,已有百家爭鳴之勢,建立標準自然勢在必行。

工信部、國家標準化管理委員會通過全國標準資訊公共服務平台公布,《資訊技術圖資料庫系統技術要求》的國家標準正式立項,這也是中國首個圖資料庫方面的國家標準立項。

此國家標準由TC28(全國資訊技術標準化技術委員會)歸口,由螞蟻集團牽頭制定。

基於螞蟻集團的標準貢獻,在近日召開的全國信標委大數據標準工作組會議上,螞蟻集團當選為2019年優秀成員單位。

據了解,全國信標委大數據標準工作組由中國科學院院士梅宏擔任組長,負責全國大數據方面的國家標準制定。

除了本次立項的圖資料庫國家標準,基於自身在圖智慧領域的產業實踐經驗,螞蟻還在浙江互聯網金融聯合會牽頭制定和發布了《互聯網金融分散式架構技術應用指南》的團體標準;在全國金融標準化技術委員會牽頭立項了《金融IT基礎設施 存儲應用實施指南》的行業標準;在CCSA TC601,參與信通院牽頭的《圖資料庫白皮書》和《大數據圖資料庫技術要求與測試方法》團體標準;在ISO/IEC JTC1 SC32參與《ISO/IEC 39075 : Graph Query Language》的國際標準。

螞蟻集團與LDBC也正在合作,將其認證範圍從社交網路領域擴展到金融領域。

何昌華介紹,「在中國,圖資料庫是一個正在蓬勃興起的非常熱門的領域,國家也已經開始制定各種各樣的技術標準,希望在統一的標準之下,促進技術交流和全面發展。」

Google用兩篇論文將分散式計算技術普及全世界,螞蟻集團也在通過企業合作,讓技術賦能社會。「我們跟國網全球能源互聯網研究院合作進行電網拓撲分析,來解決他們在電力規劃中碰到的技術問題,取得了比較好的效果。」

在當今的社會生活中,能源是必須品,穩定、持續、充沛的能源,是工作生活的保障。當遭遇設備檢修、更換時,一定會採用波及方案。

國家電網的目標就是最大力度保障供能的穩定,但原有系統的分析效率很難快速分析出數億節點中任意單個或多個節點調整,對整體系統所帶來的影響。因此,每次哪怕微小的設備檢修,都需要提前充足準備,影響工作效率。

後來,通過和螞蟻集團團隊合作,他們用圖計算技術來管理數億設備節點,將每個供電設備節點作為一個”頂點”繪製設備關係圖,可以很容易的在圖上找到需要調整的設備,並分析其節點關閉帶來的影響,從圖資料庫中預演,即可合理規劃設備調整並提前預警,最大限度保持穩定持續的電力輸出,保障民生。

何昌華介紹,「目前。螞蟻集團圖計算技術已經規模應用於反欺詐、反洗錢等領域,保護金融安全。同時,也在能源、電信行業有廣泛應用前景。從螞蟻集團的角度,在支援好內部業務,不斷錘鍊技術的前提下,我們也會積極地把圖計算的技術開放出來,用到更加廣泛的領域中,尤其是對國計民生更有用的領域。這也是我們開放技術背後的思考。」

5


圖:下一代數據建模

從結繩記事、象形文字,到現代語言,經曆數千年的演變,人類的交流符號中包含的資訊越來越豐富,維度也越來越高。

從數字、表格,到圖數據、影像,機器的交流符號也在經歷著類似的演變過程。

這不禁令人懷疑,機器會不會比人類更早實現用感知數據直接交流?這或許激發了人類的好奇或嫉妒,成為急著尋找深度學習和圖深度學習可解釋性的心理動因之一。

一圖勝千言。任何數據都不是對真實世界的完整呈現,所以不可避免會出現天然的缺陷,使其不能很方便地呈現我們在現實世界中很自然的交互。

如今的時代注重數據的兩個方面,即數據量和數據維度。傳統方法適合低維、稀疏數據,大數據方法適合低維、稠密數據,深度學習方法適合高維、稠密數據,而圖深度學習、圖計算方法則非常適合高維、稀疏數據。因此,圖很可能是下一代的大數據。

圖數據相對於表格數據實現了一次世界表徵的飛躍,影像數據也從另一個層面藉助深度學習在進行著一場革命。

數據不再只是一張表格,要處理圖這樣的數據,很多底層的邏輯都要推倒重來,包括思維模式。

何昌華介紹,「過去30年的關係型資料庫給大家構建了這樣的思維模式,也就是表格思維。與外部進行協同推進圖計算技術的時候,如何進行思維上的「急轉彎」,也將是我們長期面臨的一大難題。」

理性質疑之外,技術革新亦不可避免帶來變革前夕的迷茫和擔憂,人們最先會從個人角度出發,質問用戶隱私問題。

螞蟻集團作為如此龐大的應用,必然涉及非常多的用戶個人資訊,在技術應用的過程中,團隊如何避免個人資訊的泄露呢?

何昌華回應道,「我們所有數據經過了用戶授權,和數據脫敏,比如數據傳輸、計算過程中需要保障數據是加密的。同時,螞蟻集團的圖計算是建立在隱私保護基礎之上,有一套很前沿的隱私計算技術在底層做基礎。」

硬核技術讓變革一往無前,安全保障也讓團隊無需瞻前顧後,持續瞄準下一個難關。今年,螞蟻集團已不再滿足於被動的識別,而開始探索主動的做法,也就是預測——在一個欺詐行為實行之前檢測出來。

從觀察世界、理解世界開始,GeaGraph的下一步,是模擬世界。

雷鋒網雷鋒網雷鋒網