銀行的大數據應用
- 2020 年 4 月 10 日
- 筆記
大數據發展簡介
「大數據」一詞據稱最早於1980年出現在美國著名未來學家阿爾文·托夫勒所著的《第三次浪潮》一書中,他在書中將「大數據」稱為「第三次浪潮的華彩樂章」。在筆者看來,大數據的應用效果主要取決於兩部分,一是大數據的技術部分,二是對數據品質和價值有重要影響的數據治理部分,二者應當並重。本書分別介紹下這兩條線的發展歷程。
(一)大數據的技術部分
被廣泛認可的「大數據」概念最初是由著名諮詢公司Gartner的高級分析師道格拉斯·蘭尼(Douglas Laney)提出的。2001年,蘭尼在一篇名為《3D數據管理控制數據量、速度和多樣性》指出,大數據管理面臨三大挑戰:容量、多樣性和速度(Volume 、Variety、Velocity ,3V),後來成為大數據的三大基本特徵。
現今常說的大數據技術,起源於Google的三篇重量級論文:2003年10月發表的《Google文件系統》、2004年12月發表的《MapReduce:超大集群的簡單數據處理》和2006年11月發表的《BigTable:結構化數據的分散式存儲系統》。這三篇文章論述了大數據技術的三架「三駕馬車」:分散式文件系統GFS、大數據分散式計算框架MapReduce和NoSQL資料庫系統BigTable。
2006年,天才程式設計師Doug Cutting啟動了一個獨立的項目專門開發維護大數據技術,誕生了大數據技術的經典框架——Hadoop,主要包括Hadoop分散式文件系統HDFS和大數據計算引擎MapReduce。2008年,Hadoop正式成為Apache的頂級項目,Doug Cutting本人後來也成為了Apache基金會的主席[1]。
2008年9月《自然》雜誌在推出了名為「大數據」的封面專欄,通過《The Next Google》,《Welcometo petacentre》,《Disillingmeaning from data》等一系列文章,更全面的介紹了大數據。到2009年,大數據技術已經基本成熟,轉入大規模應用階段。實時計算方面,Spark(2009)、Storm(2010)、Flink(2015)等主流技術也先後形成。
2012年,頗具影響力的《大數據時代》一書出版;同年,瑞士達沃斯世界經濟論壇上發布了題為《大數據,大影響》的報告;同年,美國頒布了《大數據的研究和發展計劃》;同年7月,聯合國在紐約發布了題為《大數據促發展,挑戰與機遇》的大數據政務白皮書。
2014年,「大數據」首次寫入中國《政府工作報告》;2015年,國務正式印發《促進大數據發展行動綱要》;同年5月,首屆數博會在貴陽召開,旨在打造國際性的數據產業博覽會;2016年2月,國家發展改革委、工業和資訊化部、中央網信辦同意貴州省建設國家大數據(貴州)綜合試驗區,這也是首個國家級大數據綜合試驗區;同年10月,國家在京津冀、珠江三角洲、上海、重慶、河南等七個區域推進國家大數據綜合試驗區建設。
如今大數據技術早已脫離技術炒作期,成為其他技術的底層支撐,比如人工智慧技術。儘管大數據市場依然具有不錯的情景,但掀起大數據時代的Hadoop的供應商們,日子卻已經很不好過了。全球三大Hadoop開源大數據軟體供應商中的Cloudera 和 Hortonworks已經於2018年合併,抱團取暖;另一家公司MapR已經被收購。大數據技術已經從Hadoop推動的第一代向更智慧、更實時、面向交互的技術方向轉變。
(二)數據治理部分[2]
2002年,數據治理概念首次出現在學術界,美國兩位學者發表題為《數據倉庫治理》的論文,關於「數據治理」的正式研究就此開始。
2003年,DGI(國際數據治理研究所)成立,研究數據治理理論框架,與ISO國際標準化組織對數據管理與數據治理進行定義。
2009年,國際數據管理協會(DataManagement Association,DAMA)發布《TheDAMA Guide to the Data Management Body of Knowledge》(簡稱DMBOK),即DAMA數據管理知識體系指南,基本固定了數據治理的理論框架。
中國數據治理的探索是在DMBOK基礎上的延展。2015年提出了《數據治理白皮書》國際標準研究報告,2018年發布了《銀行業金融機構數據治理指引》,這標誌著數據治理在中國銀行金融機構中開始落地實踐。
從2019年開始,各銀行要開始根據監管合規的要求,逐步開展包括數據治理組織架構建設、數據管理專項工作推進、數據品質控制落實、數據應用和數據價值實現,以及自評、審計和監督檢查等工作。數據治理已經成為銀行的重要工作事項。
[1]引自《大數據技術發展史:大數據的前世今生》,2019-02-14,慕白,慕白部落格。
[2]本部分多處引自《銀行業數據治理實踐難點及應對》,2019-07-23,德勤。
國外銀行的大數據應用
國外銀行方面應用大數據較為成功的兩個企業案例分別來自富國銀行(WellsFargo)和美國第一資本(Capital One)。
(一)美國富國銀行(Wells Fargo)
美國富國銀行(Wells Fargo)是大數據方面較為成功的應用案例。
富國銀行是很早就重視數據應用的企業,在1983年就建立了企業級數據倉庫系統,但是其數據應用是圍繞不同的業務線分別建立的,導致資訊難以共享。2010年前後,通過對遺留數據系統的遷移,富國銀行逐步實現了企業級數據整合,建立了企業級數據湖。
在數據湖的基礎上,富國銀行建立了數據集市,所有的數據服務以「Data API」的形式提供調用。這種形式很像最近流行的「數據中台」概念,由此也可見,系統架構設計往往有殊途同歸的效果。
富國銀行對數據治理工作的重視程度也是業內少有的,將數據戰略寫入公司戰略。該行是最早設置首席數據官(CDO)的銀行(2014年),擁有上萬名數據方面的技術人員從事數據分析、模型開發工作。2017年,富國銀行建立了全行集中的數據運營和洞見團隊。目前大數據賦能應用集中在用戶體驗、用戶分析以及風險合規等方面。
(二)美國第一資本銀行(Capital One)
作為全美前10大銀行中,唯一的非百年老店, 美國第一資本銀行(Capital One),在數據應用方面有著獨到之處。
Capital One認為「數據和技術將使銀行業發生革命性的變化,特別是從信用卡開始」。Capital One將信用卡看作是基於數據的的技術業務,而不是貸款業務。CapitalOne的口號是「建立一家從事銀行業務的技術公司,與使用技術的銀行競爭」 。這種理念決定了它的與眾不同。
Capital One創建了「邊測試邊學習」(Test-and-Learn)的數據分析方法,基於分析結果改良業務應用。除主營業務外,CapitalOne對客服電話的處理也獨具匠心,通過對大量的通話記錄進行分析,建立通話模型,識別出客戶在信用卡使用哪個階段中遇到什麼問題,從而提前預判客戶來電內容,迅速連接到相關人員為客戶正確解答問題,大幅度縮短客戶通話過程,節省了客戶和銀行的時間。
中國銀行的大數據應用
(一)技術及應用方面
工行在2013年引進了業界最流行的Hadoop技術,在Hadoop基礎上搭建了大數據應用。2017年成立大數據實驗室,以完善大數據服務雲體系為目標,實現總分行數據共享、資源動態調配和海量數據存儲,提供離線計算、離線分析、在線讀寫、實時計算等多元化服務。
農業銀行在2013年開始建設完全自主可控的大數據平台,平台採用「MPP+ Hadoop」 混搭架構建設,MPP分成主庫和八大集市。2015年4月7日,生產環境正式上線,可支撐總數據量1.5PB。2016年3月,真正實現MPP與Hadoop融合,構建主倉庫MPP集群雙活,4套GBase 8a MPP集群共計152節點,總數據量超過2PB。
中行2015年規划進行「Hadoop+NoSQL」的大數據平台建設。2018年8月,包含客戶畫像標籤、外部數據應用管理、數據沙箱三大服務體系的大數據平台正式發布,中行也建設了基於海量並行處理(MPP)技術的分行數據服務平台。
建行2016年開始建設大數據智慧平台,平台在數據倉庫的基礎上引入Hadoop技術,打造「MPP+Hadoop」的雙擎架構。
中國銀行大數據應用目前主要集中在客戶畫像和風險領域,與人工智慧技術融合。比如工行的「融安e信」大數據反欺詐系統,2018年幫助客戶防範電信詐騙近8萬筆、避免客戶損失24億元;建行在普惠金融領域,結合企業及企業主行內外數據,運用大數據技術,建立全新的客戶評價體系,截至2019年5月末,建行普惠金融貸款餘額超過8000億元,增速超過30%,不良率較低。
此外,大數據應用也逐漸擴展到其他領域。比如客戶關係管理、運營分析、監管報送、資產負債管理、財務管理等。
(二)數據治理方面
中國大型銀行近年來也普遍加強了對數據治理的重視,建立了較為完善的數據治理機制,不斷加大數據分析人才的引進和培養力度。
工行數據治理工作主要遵從五大原則,即「架構明晰、服務導向、統一管理、持續改善、機制保障」,構建起一個相對完善的數據治理框架體系,涵蓋了目標、核心領域、基礎設施、配套機制等核心內容,明確了數據標準、數據品質、元數據、數據安全、考核評價、數據認責、數據生命周期、數據分布(也稱主數據管理)等八大要素和基本任務[1]。
建行自上而下建立了完整的組織管理和工作機制,以總行數據管理部作為大數據能力建設牽頭部門,並組建了大數據智慧中心,作為專門為全行提供大數據應用支援的專業化機構,為總分行各業務部門大數據應用提供全面的數據、分析方法、工具和專業人員支援,協助業務部門共同實現全行大數據戰略目標。建行每年組織實施「綠樹工程」大數據種子人才培養計劃,選拔總、分行骨幹人員到大數據中心智慧學習,以集中授課、項目實踐雙管齊下的形式,培訓骨幹人員掌握大數據分析工具、技術和方法[2]。
農行在數據問題治理方面逐步探索形成了「監測-整改-跟蹤-評價」的閉環管理模式。品質定期監測的目標是收集實際工作中遇到的數據問題,並基於此設置檢查點、檢查規則來收集數據問題的整體情況;問題整改則是對發現的數據問題實行「清單制」管理,沿著「發現問題-分析原因-落實整改」的路徑,持續推進落實;問題持續跟蹤通過加強過程管理,持續反覆的對數據問題進行考察,推進數據問題的徹底解決;考評機制是指揮棒,通過「橫向評價、縱向考核」機制,橫向上以品質報告為依據,定期通報各部門主管數據的品質管理工作進展,縱向上以分行數據品質考核為抓手,將品質問題的責任逐級落實到經辦行和個人[3]。
中行數據治理工作實踐包括數據治理架構、數據標準管理、數據品質管理和數據服務管理四個方面。制訂並發布了數據治理框架政策、管理指引和操作流程,明確了包括董事會、高級管理層、會計資訊部、總行各業務條線部門、總行各技術部門、一級分行數據管理牽頭部門、一級分行各業務條線部門以及一級分行各技術部門在內的全行數據治理架構;形成了不同業務和系統間的數據一致性規範,通過持續多年實施企業級數據模型建模工作,已實現模型項5000餘項,陸續發布了34項集團級數據標準及600餘項指標標準[4]。
[1]引自《推動數據綜合治理 提升數據資產價值》,2017-10-13,蘇宗國,金融電子化。
[2]引自《推進大數據應用,實現業務價值創造》,2018-10-12,劉靜芳,金融電子化。
[3]引自《夯實基礎 加強管控 創新服務——農業銀行數據共享服務之路》,2017-10-16,孫建平,金融電子化。
[4]引自《銀行數字化轉型中,數據治理的挑戰與思考》,2018-05-15,劉秋萬,金融電子化。引用時略有改動。
關於對銀行大數據應用的思考
(一)技術方面
以Hadoop為代表的第一代大數據技術已然十分成熟,功能強大,中國大型銀行的大數據平台基礎基本上也都是HaDoop框架。而歷經十餘年之後,開源Hadoop供應商日子已經十分艱難,雲架構的大數據框架S3等逐漸顯露出更多的競爭優勢,後者雖然市場份額仍然較大,但增長已經停止。
據中國知名技術新聞網站InfoQ記者趙鈺瑩2018年4-5月期間,對國外大數據廠商Teradata及其兩大銀行客戶——富國銀行和加拿大皇家銀行的採訪中了解到,由於管理難、成本高等因素,這兩家銀行並不看好Hadoop的前景[1]。
Hadoop自身的前景並不等同於大數據技術的前景,它只是反映出了雲計算快速發展對前期技術框架的衝擊,用戶還是希望能夠獲得價格更低廉、服務更易用的產品。不過,由於中國大銀行之前已經在Hadoop上重金投入,預計短期內不會輕易改變其大數據架構。但是從長期看,現有大數據框架還是面臨著挑戰。
(二)業務方面
中國銀行對大數據的應用主要集中在精準營銷(含客戶畫像)和風險管控方面,前者與其在電商領域取得了良好的業務效果有較大關係,後者本身就是數據模型的強項。
這兩大領域的成功應用也使銀行有意願將大數據應用範圍進一步拓寬,然而,在實際工作中,大數據技術的應用還是具有較高的業務門檻的,尤其是在數據建模方面。在以「暴力」計算方式開展相關性分析的應用模式「冷靜」下來之後,對因果關係的重視程度逐漸上升,而這對建模能力的要求更高了。
儘管各大行的大數據戰略中都很關注數據分析人才的培養,但是數據分析人才的缺口依然很龐大,正是這些人最終了決定企業應用大數據的結果和競爭力。
國外,富國銀行號稱有10000多名數據工作人員分布在各個業務條線,推動數據分析的應用,加深數據分析技術與業務之間的融合。
業務與技術的深度融合首先是人的融合。對於規模龐大的國有大型商業銀行而言,如果無法改變技術人員和業務人員之間懸殊的比例,就不可能有足夠數量的技術人員走到業務中去。做開發項目期間技術人員和業務人員的接觸僅能滿足實現的要求,而無法真正去深入地用技術推動業務的變革。大數據方面也是同樣,沒有足夠的數據分析人員與業務人員共同在業務環境中思考對大數據技術的應用,也就難以充分發揮大數據的價值。
[1]整理自《國外兩大知名銀行Hadoop採用現狀調查,Gartner所言非虛!》,2018-05-30,趙鈺瑩,InfoQ
相關文章: