世界頂級企業的數據中台實踐剖析

  • 2020 年 2 月 24 日
  • 筆記

點擊觀看大咖分享

抗擊疫情,騰訊雲在行動。數據中台是中國提出的概念,那麼在國際上是否有類似的架構和案例呢? 本課程將給大家分享幾個國外的幾個典型案例。

本次騰訊雲大學大咖分享課程邀請 騰訊雲最具價值專家TVP 史凱 分享關於「世界頂級企業的數據中台實踐剖析」課程的內容。

作者簡介:史凱,騰訊雲最具價值專家(TVP)/ ThoughtWorks 數據智慧業務總經理。投身於企業數字化轉型工作近20年。2000年初,在IBM 研發企業級中間件,接著加入埃森哲,為大型企業提供資訊化架構規劃,設計,ERP,雲平台,數據倉庫構建等技術諮詢實施服務,隨後在EMC負責企業應用轉型業務,為企業提供雲遷移,應用現代化服務。 現在專註於企業智慧化轉型領域,是數據驅動的數字化轉型的行業佈道者,數據中台的推廣者,精益數據創新體系的創始人,2019年榮獲全球Data IQ 100人的數據賦能者稱號,創業邦卓越生態聚合賦能官TOP 5。2019年度數字化轉型專家獎。 打造了行業第一個數據創新的數字化轉型卡牌和工作坊。 創建了精益數據創新的諮詢方法論體系,並在多個企業驗證成功,正在向中國外推廣。

本次分享內容:

1、上一講關鍵內容回顧 2、富國銀行:數據轉型之旅 3、Netflix:數據驅動的企業 4、關鍵發現 5、Q&A環節

一、上一講關鍵內容回顧

數據中台成為2019年真正非常火的一個趨勢。

分析了為什麼會成為這樣的趨勢。

做了研究和分析,發現企業對於數據中台寄託著九個非常重要的期望:如下圖所示

1、與業務更緊密。

2、提供數據服務,而不僅僅是可視化。

3、快速提供業務價值。

4、能夠快速開發,從數據到業務價值的這個過程。

5、圍繞業務場景

最終總結了數據中台的願景和使命

以及對於企業來講,數據中台實際上就是企業的數據服務工廠,大家用這樣一個形象的比喻可以想像一下,數據中台要具備的能力和的功能,就類似於一個數字化世界裡的數據服務工廠。

二、富國銀行的數據轉型之旅

1、關於富國銀行

富國銀行是巴菲特所認為的世界上最好的銀行,巴菲特過去幾十年投資富國銀行很長時間,而且富國銀行在美國按照規模來講,並不是最大的,但他在客戶服務和盈利能力上基本上是最好的。我們中國的招商銀行,曾經有一度在網上講,招商銀行是在學習和這個參考富國銀行做零售之王。富國銀行是一個非常有創新精神的企業,歷史很悠久,有160多年的歷史。

2、富國銀行數據轉型的願景

富國銀行是如何利用數據構建業務和提升用戶體驗,首先我在做研究的時候,發現富國銀行是很少見的將數據和技術寫入到董事會的文件里的,大家可以去查一下,富國銀行18、19年的年報,他們把數據的應用提升到董事會的層次。應該是去年19年,富國銀行剛剛換了CEO,原來的蒂姆.斯隆退休了,他在過去特彆強調的一點就是數據。他有一句非常有名的話是,數據轉型是富國銀行提升效率的重要因素,它可以幫助我們加快創新產品推向市場的速度,幫助我們的客戶更好地管理他們的財務狀況。我ppt裡面所有的這些內容都是有出處的,所以大家看到下面的鏈接,就可以參考,去找到對應的源頭,這裡我就不詳細講了,總而言之,富國銀行是一個非常注重數據價值、數據利用的企業,而且從數據當中獲得了非常好的收益。

我們來看一下他們是怎麼做的。首先富國銀行前面的業務願景,大家看到了很清晰,他們希望通過富國銀行,提升企業的競爭力,將企業的客戶數據整合在一起進行提升,幫助客戶管理他們的財務狀況,它的業務願景很清晰,而且圍繞最多的是用戶數據,但是富國銀行依舊面臨著很多的挑戰。

第一點是富國銀行是有七千萬數據的用戶,有8000多個網點,在他們內部做這個數據轉型的時候,把轉型的項目起名叫gobblygoop,名字就是非常含糊模糊的、不清晰的。這就是他們當時的這個在做這個數據轉型之前的數據現狀。總結第一點是數據很多很散很亂。

第二點是利用客戶數據去做很多的欺詐檢測,提升用戶體驗,但場景和用例並不是那麼的清晰。我們現在會發現,比如說在跟企業交流的時候,很多企業說,非常清晰的知道場景,但是就不知道怎麼做到,然後當深入交流時會發現,實際上很多甲方,他認為他知道這個數據應用到什麼場景,但實際上在他腦子裡面這個場景可能就是一個idear,就是一個非常模糊的方向或者目標,並不是真正的場景,而且場景往下細分是叫usecase,就是誰怎麼用,只有清晰的定義清楚這些顆粒度的內容,才能說你清楚知道你數據應用場景,否則你只告訴我說我知道這個數據可以做精準營銷,這樣四個字涵蓋內容太多了,它並不能幫助你去解決怎麼應用數據的真正場景的問題。這是第二點,他們實際上並不清晰的梳理出場景和用例。

第三點是他們的數據技術能力實際上缺失的。

3、富國用戶數據轉型的四個關鍵內容

在這樣的情況下,他們從一七年的時候,就啟動了一個全行的全球的數據轉型之旅,重新構建和連接了整個銀行企業級的數據戰略。第二部分是梳理了用戶場景和用例,並且將這些數據應用到了這些場景和用例產生了非常多的業務價值。第三部分是構建了數據平台。第四部分是構建了他的數據團隊和整個的能力。

所以看到他們之間是有遞進關係的,第一件事情做的是梳理、構建企業級的數據戰略,然後在數據戰略的基礎之上,完成了後續三件事情的工作,所以數據戰略實際上是包含後面這三部分所有的規劃、要做的內容。

首先來看富國銀行的數據戰略。它構建了全行非常清晰的數據戰略,下圖中左邊這張圖,可以看到這是他畫出來的,在金融這個領域所有的這些數據流,從主機MAINFRAME到數據湖到分析的運營模型到價格和策略戰略的制定,以及客戶和ATM數據的分析,他把數據流、數據場景,用一個清晰的戰略把它們穿在一起。分析哪些數據是低價值的,哪些是高價值的,哪些是元數據,哪些是重新加工的數據,還分析了這些數據對於技術、整個的不同的處理方式架構的不同,那這樣的話,他就有一個清晰的全貌。所以構建了這樣整體的數據戰略,這個數據戰略我把它又分解了一下,會發現裡面它包含業務場景、數據技術戰略、企業級數據集成、企業級數據資產管理以及數據治理。

那麼這個數據戰略具體做哪些事情呢,我們下面一個個分解來看。

首先它構建了企業級的數據站治理體系,富國銀行很早就這個構建並招聘了首席數據官這個角色,以首席數據官為核心成立了首席數據辦公室,這個辦公室制定整個企業的數據治理策略和標準,當然這裡我們要重點強調一點,他的這個數據治理和我們傳統所講的非常厚重的數據治理還是有一些差異的,他更多的是圍繞場景來看和用戶的數據治理嗯,所以整個數據治理包含的內容,第一梳理企業的數據資產,所以購進了企業的數據資產目錄;第二做了元數據的定義和管理;第三構建了統一的版本的數據源,這個不同的版本的數據都在哪裡,他們之間哪個版本由誰去調用,這樣的話,構建了能夠被全行所理解和互通的數據溝通語言,所以數據治理做得非常好的。

第二步分析了數據的用戶的旅程。把這些重點不同角色的用戶的user journey的粗粒度的場景清單梳理出來,他們把整個的數據的用戶分成了五大類型,有這個業務類、數據分析類、技術類的用戶等,那對於不同的用戶,他們是怎麼樣用數據的,這些數據的journey是什麼樣子,這點我覺得是我在做的中國乃至海外的項目里,發現做得很好的一點,我們講做應用系統,做開發的時候說用戶旅程,這個大家現在都很清楚,但是當我們做數據項目的時候,是不是很清晰的知道你的數據里程,就是從數據源頭到數據產品的使用到用戶的使用這個journey有沒有梳理出來,但是富國銀行在他的數據戰略裡面就梳理了這些內容,這樣的話就非常的清晰知道我的數據在哪裡,這些數據應該誰去用,誰去用的時候不同的角色,不同的用戶,他的用力是什麼樣,那我應該給他支撐什麼樣的技術架構,然後我的數據治理應該做到什麼層次,它不是一刀切的方式,是非常的個性化。

然後除了數據的用戶之外,在這個基礎之上,他還構建了第一個面向數據分析的運營模型,這樣他就知道哪些用戶用到什麼樣的技術、用到什麼樣的數據。就整體有了一個用戶的數據場景的全貌,就能建立數據旅程的地圖。在這基礎之上,他們梳理出來利用數據的四大類型的用戶體驗改進、用戶和市場洞察、合規和風險管理以及賦能客戶,所以這些東西都是在數據戰略的時候就梳理好了,在這基礎之上應用到不同的業務里。

那我們下面一個個來看,上圖是梳理出整體的企業級的數據旅程地圖,總結了四大場景就是四個應用領域,那第一個是用戶及市場洞察。

我們要講一下背景,2017年富國銀行為什麼要啟動數據轉型之旅,是因為在2011、12年到2016年,富國銀行的面臨很大的挑戰,他們有3.5個億的欺詐賬戶使用真實的用戶數據,因為那時候他們出台了一個政策就是他們的員工可以去開戶,希望用這個來激勵員工對業務的貢獻,那這樣帶來的就是眾多的假賬戶,背負著1.5個億美元的訴訟,在幾年間關閉了400個分支機構裁員了5300人,所以面臨的挑戰是很大的。這種情況下,富國銀行意識到我必須跟我的客戶建立起非常直接的信任,而且要讓交付超越客戶期待的價值。這是他的業務背景,所以啟動了數據轉型。他們希望數據轉型,幫助他們去理解他們的客戶是什麼樣子,客戶對業務真實的服務滿意度,這我覺得是非常有價值的,很多企業只關注說現在有什麼數據,現在能做什麼,但是忘了一點,就是我們實際上更多要考慮的是未來有什麼數據,未來要布局、採集、生產什麼數據。

他在這基礎之上,他對全北美的用戶做了分析,哪些用戶忠誠度比較高,哪些用戶有問題,然後針對這些,他們才能深入的去了解他的區域、支行,這些不同的客戶的情況。真正為客戶提供基於深入了解客戶的服務。這點做得非常的好。

第一個是利用數據做用戶體驗提升。當他們清楚知道了數據的畫像、不同用戶的情況之後,就做了一件事情,這件事情我覺得也是在行業里實際上做的不是那麼多的。他們利用用戶的行為的分析,重新構建、設計官網。原來的門戶網站更多是一個設計型的項目,在17、18年的時候,通過數據分析,他把門戶網站的菜單、欄目、布局重新做了設計。這個非常有價值。

第二個是在這些數據的基礎之上,做了非常多的用戶及市場洞察。這裡面還構建了非常多的人工智慧的技術,因為我們知道在原來銀行行業部門之間你不了解我的數據,我不了解你的數據,信用卡中心的人,是不知道這個客戶的財富的情況的,購買了哪些理財產品,也不清楚借記卡的情況,那這情況下他再去做業務的判斷,給客戶提供服務的時候沒有全貌。所以這也是原來這個富國銀行很大的挑戰,但是在數據轉型之後逐漸解決了這樣的問題,基於大量的數據、統一的用戶畫像,他們構建了Customer Data Platform,在這基礎之上,做了很多的分析應用,比較典型的有客戶服務的Chatbot,是在大的銀行里,全球最早推出Chatbot的銀行之一,他們的用戶在手機上在Facebook上就可以去提供服務,並且能給客戶提供predictive的這種Banking,就是預測型銀行,能告訴你,應該怎麼樣去管理現金流,建議你下個月的財務的支出以及理財的這種推薦。這是非常有價值。

第三點是把這個風險和合規管理做得非常好。富國銀行通過梯度下降的一些集成演算法,構建了欺詐的模型,它比傳統的邏輯預測演算法,有非常好的表現。這塊我就不詳細去講了,因為這實際上相對來講,風控和合規在銀行智慧領域的應用是相對比較成熟的。

然後他還做了一件非常有意思的事情,大家上富國銀行的官網就會發現他們把自己的數據和智慧的技術做成一個服務提供給客戶,他的那些企業客戶、對公客戶。幫助他們去提升效率,我覺得這一點是非常有價值的,這樣的話,他不僅僅能夠提供理財服務,還幫助客戶去提供一些專業性的服務,這樣的好處是什麼,他能採集到更多的數據,能更全面的去了解這個企業的經營的情況,以至於為他們制定更好的理財和金融的服務。

第三部分,數據平台。在數據戰略制定清晰後,做的數據的整個業務場景和用例。那麼是什麼支撐的這些用例,這就是數據平台。在構建富國銀行的整個企業級的數據平台的時候,第一件事情是把它傳統的數據倉庫做遷移,我們在全球也實施很多這樣的項目,一般來講把它叫數據倉庫的現代化。

比如說我們在中國給一家銀行做呼叫中心的數據倉庫的現代化。信用卡呼叫中心數據量非常大,原來的推薦不是那麼準確,它的白名單都是通過傳統的Teradata、VI人工統計出來,然後給到外呼組,然後外呼組拿到名單再去打電話。數據倉庫的現代化就是為了解決一個數據量的問題,橫向擴展,第二個是解決數據更好地實時分析和利用的問題。

在17年左右,它不僅提供了更好的服務,同時節約了非常大的費用,間接的收益,關閉了100多個數據中心。這個順序實際上也很有意思,大家可以快速的過一遍,第一件事情升級EDW Platform,傳統的就是企業級數據倉庫,第二件事情在升級完後,去改造原來的ETL,因為我們知道原來的企業數據倉庫更多是SQL的,更多的是這種這種一條工具去構建的,但是現在很多企業包括富國銀行,是拿python這種開發語言,現代化的工具去構建,最後構建分析型的環境。這塊我就不詳細去講了,後面在我的文章裡面有比較詳細的介紹。

在統一的數據服務之上,他們構建了一個很重要的東西,那就是CDP,打通了各個業務線的數據建了橫向的客戶視圖,也就是我們所說的Customer Data Platform,和原來的CRM有很大的區別,他把企業內部的數據,用戶的所有相關的數據,包括市場的數據和銷售的數據全部整合在一起,能夠全面掌握用戶的資訊,幫助業務人員做出決策。這塊CDP是一個獨特的領域,所以我這塊我也就不詳細去講了。

數據平台再還做了很有意思的事情,構建了基於元數據的數據治理平台,這我覺得是非常有價值,原來的企業的數據治理很多時候是一種非常重、以人的管理為主的。比如說上一講講到人都已經到倉庫門口了,最後領料領不出來,這就是因為物料還沒有加進去。我們希望通過一種自動的讓業務先跑,然後通過技術的手段、元數據的歸因去解決數據治理數據不一致、標準不一致、數據結構變化的問題。

富國銀行就這麼做的,它是基於建立一套企業一致的元數據體系,在這基礎之上,連接了得Data Governance和Analytics Governance的鴻溝。我覺得這點非常有意義,我們總在講數據治理,但實際上會分成兩部分,就像我們所講的數據資產。不僅是Raw Data,還包括二次加工生成的數據應用、數據報表,數據治理,實際上也包括兩部分,一部分是元數據的數據治理,一部分是Analytics Data Governance。通過元數據可以拉通這兩部分,能夠很好的去解決,現在企業所面臨的數據治理問題。

在這基礎之上,富國銀行,還做了一個那時是非常有前瞻性的工作,他構建了面向業務價值的數據集市,並且在數據集市基礎之上,構建了Data API。富國銀行現在Data API實際上是業務的一個內容,就是它開放銀行的一部分。這個合作夥伴的金融相關的企業和用戶可以去訂閱這些API服務,這樣富國銀行就構建了自己一個生態。

同時,這些API只開放在外面的,那對於富國銀行內部來講,大部分的這種數據的應用,很多都是API形式體現出來的,有自己內部的整個的API。這樣不同的業務部門在API就可以去實現這種實時的調用讓業務更加智慧。

這是前面講的,從數據治理,數據倉庫到數據湖的構建,到元數據的管理,到數據整個的Data API門戶,同時富國銀行做了很多機器學習人工智慧的事情,在18年就成立了AI的企業解決方案團隊,將機器學習應用到企業的各個領域,比如Ai-base的預測銀行應用,他還做了自己企業的Financial Knowledge Graph Topology,就是智圖譜,然後應用到很多的業務領域,我前段時間看到了在一九年這個AI的團隊現在已經做了200多個usecase,而且還在不斷的擴大,規模化的複製。

而且在這個基礎之上,他們構建了企業級的機器學習平台,這也是一個單獨的話題,我們認為不遠的未來,包括現在,很多的企業都需要企業機器學習平台,現在我們很多企業說要做數據倉庫、數據分析,這個富國銀行很早就做了企業級的機器學習平台。他們的演講,我看了,是非常有價值的,包括他們的三種應用模型的方法,是非常有參考意義的,這是在YouTube上面。

最後一部分他們的這些工作組織形式是怎麼樣的,用什麼樣的團隊去做這樣的事情。富國銀行全球有5000多名數據方數據方面的技術人員。他是最早成立CDO,14年就成立了首席數據官的銀行。然後他的團隊怎麼構建呢,我們講兩部分,第一部分團隊的分類,他把數據團隊分成三大類型,第一類是數據戰略和治理類型,那這些就是如何去管理數據、如何去探索和制定數據戰略包括數據隱私,偏業務偏規劃類的一個團隊。第二類是數據工程和數據科學類的團隊,他們是去構建數據平台、機器學習平台,這樣的工程團隊。第三類是應用團隊就是數據管理和數據洞察類,在戰略的方向下面,在數據工程的平台上面利用、開發。這種數據模型探索、數據分析,然後產生數據應用價值的三類團隊。數據團隊和業務團隊是融合的。數據團隊分成兩個大的部分,一個是數據團隊核心的code team,另外一個是分散融合在所有業務領域裡的那些數據分析師、演算法工程師。

再看他們的這整個的業務和數據是融合的。除了核心的離首席數據官和首席數據辦公室為垂直管理的這些數據團隊之外,他們每一個業務線,比如說批發銀行這個對公的銀行,都有自己的數據分析的團隊,然後大家融合在一起去工作,這也就體現了他們的對於數據科學家這個角色的定義,領域知識演算法、統計知識、工程能力,所以富國銀行很早就建立了數據團隊,並且把這個團隊和業務團隊融為一體。

前面很快過了下富國銀行整個的數據轉型的四大構成部分,第一部分數據戰略,第二部分數據的應用和用例,第三部分數據的平台,第四部分數據的團隊能力。但在這個過程當中我看到有一個這個演講,我覺得也是很這個同感,他們數據工程師和數據平台的這個演算法工程師的這個負責人提到說,在我們富國銀行去做這個數據轉型實際上是有非常多的挑戰的對吧,這樣一個全球性的26萬員工的這種企業。怎麼樣去推廣數據和智慧的技術。而且他們的這個業務用戶層次也是。很多人對於那些女櫃員包括那些agent,他們對於數據和人工智慧,完全沒有任何概念,這認知也不是很清晰,那這種情況下,他們人又多,對吧,大家的這個想法又不一樣,怎麼樣能夠讓大家支援你去推廣做這樣的事情,這也是很大的挑戰。

第二有的領導他們也在這個演講當中提到那有的人他就會給你各種各樣的挑戰說你為什麼用CNN不用這個原來的邏輯模型、專家系統,它的好處是什麼。這個也碰到很多這樣的挑戰,那最大的挑戰是什麼,那數據和AI的結合有非常的不確定性,對吧,如何能夠讓管理層讓這些業務人員認識並接受數據和AI的價值,避免出現過高的期望或者是這個覺得不靠譜,太虛,然後不去利用,這都是他們的挑戰。他們總結了一些經驗,我覺得可以為我們參考。第一個他們讓數據人員去學習業務,掌握業務語言,所以他們當時提到一點就是他們定期每周就讓他們的數據分析師和這個數據業務人員去溝通,讓他們站在業務的角度去思考,也就是業務價值第二個他們非常注重實際效果的體現。他不僅僅是去做這些宣傳培訓,他同時通過這種小的試點,通過速營的項目去獲得直觀效果的體現。往往他會去做比較,A/B Testing。

我用新的方法用統一整合的數據集和你原來傳統的方法做出來差異,我讓業務人員直接看到這個效果。那第三點企業領導者非常注重數據的項目,用今年這個很流行的一句話叫躬身入局。

所以通過這樣的方法資產管理構建數據資產目錄、企業的數據管理、企業數據戰略的技術的管理、面向未來的業務場景規劃、企業級的數據集成策略和集成的工具,以及數據安全管理和數據授權。

第二部分,他們去構建了現代化的數據平台。咱們現在是從下往上講。打造了從原來的EDW企業級數據倉庫遷移到現代化的數據平台,原來的傳統的資料庫的遷移,然後的企業用戶數據平台是他們做的最重要的工作,然後構建了數據API,gateway網關,然後構建的機器學習平台數據即視,這是第二部分。

第三部分他們做了很有意思的事情,數據洞察和數據應用,這一部分主要是在企業內部和直接的用戶構建了用戶體驗和洞察市場,利用數據去重新設計了官方的網站。同時做了合規和風險的管理,包括把數據和智慧的服務提供給它的客戶,這是數據應用這塊。所有的一切的根基,都是他的全面的數據轉型的團隊,在17、18年的時候,全球就有超過了5000人的數據團隊。這是富國銀行的案例,比較有代表性的是在於它是一個非常傳統的金融巨大型的企業。

三、Netflix:數據驅動的企業

Netfix就不太一樣,首先現在看來我們看來它是一個互聯網企業,但實際上它最早的業務也是非常傳統的。Netfix是我到現在做研究以來,覺得是真正的特別體現數據驅動的企業。如果你的領導或者同事問到你哪個企業是數據驅動的,Netfix當仁不讓是這個行業里數據驅動的最數據驅動企業之一。

首先快速的介紹一下Netflix,不知道大家有沒有看過紙牌屋,他就是Netfix的成名之作,在轉型到媒體影片播放和製作領域原創內容領域,Netfix最早是非常傳統的租DVD,就咱們原來很早的中國租錄像帶的企業。很早他在1997年就成立了。他九九年推出的訂閱服務,現在那個傳統租DVD業務已經發展成為了流媒體像好萊塢這樣的影視製作的大亨大型的這種平台,跟它的主要的競爭對手有HBO、Amazon、Disney,Youtube及AT&T。

所以他的轉型在業界來講都是一個奇蹟,Netfix在過去,在去年這個哈佛商業評論做了一個研究就是過去十年全球轉型最成功的企業。Netfix是首當其衝排名第一,他這個數字是很驚人的。這個什麼概念呢,這意味著說當你這個企業想轉型,肯定要去構建新的業務,一般來講,如果你投資了新的業務,那要麼你的新的業務增長會比較慢,如果新的業務增長比較快的話,實際上對老業務的影響有時候也會比較大。所以如何讓增長和創新都能夠達到非常好的效果,產生非常好的績效,對於一個企業來講是很困難,但Netfix做到了。

過去十年他的轉型是從一個流媒體租DVD轉型成原創內容的製作。就原來是說賣別人的內容,像騰訊影片這樣,從賣別人的內容、播放為收入的主要來源變成說要賣內容、製作電影。所以講的是製作原創內容,這個新的業務。他過去十年原創電影產生的收入達到了現在整個收入的44%,在中國來講,第一直觀感覺就是誰能夠有好的導演,好的演員,有好多劇本,那誰就能夠獲勝,但Netfix靠什麼去這麼快的完成他的這個轉型,靠的是數據,真的是靠的是數據。

我們來看一下,過去這麼多年他的整個股票市值的增長,18、19年一度超越迪斯尼,但迪斯尼的規模比它大多了,迪斯尼是個龐然大物,全球員工現在應該一萬人可能,一七年的時候是5000人。

不僅他的業績增長很快,而且原創內容也得到了非常好的回饋用戶增長非常快,而且它的業務模式非常單一,只收用戶訂閱費,就是收會員費,也不賣廣告。

海外的業務增長也很快。Netfix核心的價值和競爭力就是數據,但現在Netfix也在把數據和好萊塢的這種傳統的製作進行融合。

那為什麼講它是一個數據驅動的企業,首先它有數據的基因,這是兩個leader,一個是Reed,一個是Marc,Reed是原來IBM有一個軟體系列,是十幾年前我在IBM的時候,很火的很大的一個軟體部門,後來Reed創建Netfix。Marc是誰呢,去年Google收購了一個數據的這個產品來叫盧克,是盧克的投資人,所以它是有的數據基因的,但它本身實際上就是一個矽谷的典型的科技狂人做的一家公司,他做的業務很傳統,就是租DVD的,下圖是我梳理的整個的業務發展的歷史,我就不詳細講了。

怎麼體現他的數據基因的呢,在2006年的時候Netfix就推出了一個百萬美元的數據分析大賽,就像卡狗一樣。2006年的時候,在加州100萬美元能買兩套非常好的房子,這是巨款。但這還不是讓人最吃驚的,最吃驚的是他在2006年的時候,已經採集了1萬多的電影內容的用戶評價數據,並且把這個數據提供出來,讓社會上的數據分析師去做演算法分析,他的目的是為了得到一個最優的演算法,比他自己的推薦演算法要好10%。2009年的時候,這個獎發出去了。所以它的整個背景和基因就是非常數據,數據驅動他所有的角色。

那他們是怎麼做數據的這個決策和集中的呢,我整理了一下他們企業整個提出想法到決策的過程,很有意思,因為Netfix是一個非常優秀的企業世界頂級的互聯網公司,所以他們的人都非常聰明,都是一幫特別聰明的人,想法非常不缺,每天各種各樣的想法,那如何在這些想法裡面去選擇最優的想法拿來做實驗呢,他用數據做決策,所以它首先是所有的業務都能被數據化,所有的數據都被可視化,用數據做交流,提出想法後就要變成一個實驗,實驗一般來講都用A/B Testing,比如說他們很多時候會把用戶分成很多的分層三個門才能開始,對這些不同的用戶群體設置不同的這種推薦的內容和這個就是首頁的這種排版,然後再看大家的回饋,因為它的標籤做得非常好,有幾十萬個。這樣就能知道當我把這個內容推給這個類型的用戶,他的回饋什麼樣,再去調整策略,最後做出決策。所以他從公司運營、用戶體驗、產品設計和整個公司運營的角度、客戶運營的角度,全方位都是這個數據驅動。

那我們來看看它具體是怎麼做的應用到哪些領域。對Netfix來講,它最大的數據是事件。哪些事件呢,暫停快退快進,觀看的日期,在哪裡觀看的,地理位置的資訊,用什麼設備觀看的,停留什麼時候回來的,收視率,搜索哪個演員,停留在哪裡,在哪一幀關閉了不看了,那就能分析出不僅僅是用戶行為,還能從內容的角度去做分析。在一八年的時候,他們的全球傳播總監講,我們有3300多萬種不同版本的Netfix,他的個性化非常強,推薦系統是Netfix最核心的系統。

再典型的一個例子就是用數據去訂製每個用戶的個性化首頁。他有這麼多的數據有,這麼多的推薦類型。這塊我也就不詳細就講了。

Netfix每年投資到原創內容領域的投資大概是幾十個億美金,這麼大的一筆錢。既使是這樣,他依然不可能想把它所有想拍的內容全部拍了。那如何去選擇爆品,如何去決定投資。他們做了模型,用機器學習的模型能夠典型的去看,現在這些title內容的,影片哪些是可能有潛力的,哪些是可能用戶未來不關注的,從而決定投資策略。他已經建好這樣的模型。從而預測爆款,採取行動。他們內部開投資會的時候就是拿這樣的模型去輔助決策的。

我們知道拍電影是個非常複雜的事情,特別對於Netfix這樣大型的,就像好萊塢一樣,同一時間在全球有非常多的片廠的企業來講,如何去管理整個內容製作。在中國很多還是粗曠的管理,取決於大家的經驗,所以大家往劇組裡一關就是關一兩個月半年。但Netfix是這樣,他把所有的這些內容全部數據化,把這些東西全部做成模型。

定義好哪個場景,哪些演員出現,哪些道具從現在搬到這個場景,布景什麼時候搭建,演員每天工作多長時間,而且要考慮財務,這樣去安排,什麼樣成本最低什麼樣收益最高什麼樣演員狀態最好。這是非常厲害的。

他們用數據模型去控制優化成本,建立分層結構的模型。

用數據去管理,並且模擬整個全年的分季度的全球的項目。這就是像做敏感度分析一樣,比如說你們幫我們看一下,現在還有20個億要投進來,投哪些項目能帶來最大的價值,或者說要砍掉五個億的預算,砍哪些項目,對用戶影響最小,對我的完成率越高。那這種情況下,這樣的數據分析和模擬就非常的有價值。

同時,他們用數據做資產的分配和優化。因為Netfix這種這種大型的製作,有的蓋房子就蓋很長時間,那這種情況下我如何去運輸這種大的資產在全球範圍內去規劃。包括交通、費用,這都是數據在起作用。

小的方面是利用數據做語言字幕。下圖中右邊的圖是Netfix全球化的過程,全球化你就避免不了一件事情,那就是多語言。那多語言先翻什麼語種後翻什麼語種,什麼時候推出什麼語種。需要去做決定,因為全球有那麼多種語言,那Netfix怎麼做決定呢,A/B Testing。先翻譯一集,推出一個德文版,看看德文版全球播放的效果如何,看的人多不多,再來看,再翻法文版,看的人多不多,再來調整,最後得出一個最佳的有業務價值的平衡用戶體驗的字幕的順序。他有結合了HERME,是有一個非常有名的在字幕翻譯領域的一個系統。

前面我們所講的是典型的Netflix的這種數據用例,那我們下面來看一下Netfix的數據哲學,這個哲學我覺得是非常務實的,也是非常有價值的。

Netfix有三句話在他們企業內部。第一句話就是數據應該容易被發現,我覺得三點都是非常有用,非常有價值的,特別是第三點,我們有很多時候會說有很多數據,中國的企業數據在哪兒,看到報表覺得報表做的不好,有問題不知道找誰去。然後有時候想去做一個數據分析拿數據拿半天,可能你做報表花一個小時,你要花一個禮拜去溝通找數據,花另外一個禮拜驗證數據正確性,然後開發一個報表可能一個小時,一天開發完了。這就完全驗證了Netfix的話,你花的時間越長找數據,那數據價值就越低。特別在可視化這一塊,他們這個用力特別有意思,他們分析了這個幾個電影的封面,然後呢,把這個封面的色調來進行差異化,然後通過這些方面的設計、色調、顏色的組合、去看用戶的習慣,然後做用戶推薦,這個是非常精細化的這種數據利用,所以這個數據的哲學非常的有價值,第一數據要可被非常容易的被訪問被探索,容易被所有人所處理。第二數據一定要能夠被可視化,被別人所理解。第三一定要讓數據快速的找到,否則這個數據的價值就低。

那麼我們來看一下前面講到這個Netfix是如何用數據以及這是一個數據驅動的企業。所有的方方面面,所有的決策都是基於數據,這裡面有一些影片,我聽的時候我覺得特別的有感觸,這樣的一個真正是一個技術型的企業。那我們看一下他的這個數據架構的全貌。首先Netfix的數據需求,它真的是有大數據。他有這個Trillion級別的事件,這是一七年的數據,有150 Petabyte Warehouse,有300 Terabytes每天被寫入的數據,有5 Petabytes的數據每天被讀取,這還是2017年的。到2019年的時候他已經每天會產生1.5個億小時的播放數據。每個小時有多少幀,想一想這數據量是非常大的,那這所有的行為數據都是他巨大的保障,那如何去分析呢?

整個Netfix企業都是數據的用戶,Netfix經營策略,它有一句話叫用科技分析數據,用數據驅動業務。它的四大業務領域內容生產、市場營銷、運營(增長)用戶業務增長和技術。因為它實際上本身就是個技術性的公司,如何去管理他的這些伺服器,如何去管理整個的自動化生產。所有的這些部門都與數據的部門緊密的融合。全公司在2018年有5000員工。其中就有300個數核心數據團隊的,有200多個數據的人分布在不同的業務部門。

Netfix如何這個讓數據分析應用起來,第一個全員皆分析師,所有人都要會做數據分析,能夠分析數據、應用數據。還有一個data portal,這塊我待會重點去講,我覺得是非常有借鑒意義的,對我們的企業來講。第三個,數據可視化tableau應用到極致。

tableau的數據的使用流是這樣的,他所有的數據都存在amazon上面,所以他是一個同源的這對他來講實際上是非常有優勢的,不像我們很多企業的數據這個應用都是各自一攤,有雲的,不同的部署,多個數據中心,他所有的數據都在雲上,所以這是它的一個優勢。然後呢,這樣的話他就能夠同源,然後拿kafka把所有的數據都loading到S3的數據服務,數據計算,數據存儲,數據處理,最後到數據應用,這是他整個的使用流。

5000人的企業在這個2018年19年的時候,它就有2300多個tableaus。他整個企業的數據自分析體系,當然它還有很多其他的數據應用和分析的方式,除了tableau之外。

他整個的數據生態分三層,第一層是數據源,數據工程師從原始的數據例分析數據,然後數據分析師和數據可視化工程師,他們去幫助找到數據和讓別人去理解數據,中間這層是加工數據產品的,是業務分析師、研究員還有機器學習工程師,最上面是數據應用方法。

數據分層做得非常好,能夠很清晰的找到他的ETL數據是從哪個表裡來的,數據復用,數據模型是怎麼復用的,機器學習的這些模型的數據版本是在哪裡,然後他能夠對應到前面的業務那邊去,所以我覺得這個是非常有價值的。

這是他整個數據架構的全景圖,從subsciber事件到整個的數據pipeline的構建,到數據存儲,再到快速的數據利用存儲、數據可視化,以及數據用戶、業務用戶的這種訪問。

我們最後快速過一下這個數據中台的關鍵組件。下圖是整個的數據技術選型的一個全景圖。元數據系統來自於S3、Amazon Redshift、druid和RDS關係資料庫,這裡面druid是用來做那些快速訪問的實時性要求非常高的存儲。計算有Pig、HIVE、Spark、presto,其中Spark現在已經佔到90%以上的份額,就是在這種處理上。Data Services,GENIE是Data Services用來做數據編排、數據管理調度的,Metacat和Microbots做這種服務管理。在他前端數據分析這個領域是數據工具,這塊我也就不詳細講了。

數據架構的一個演進。最早Netfix是像我們很多傳統企業一樣,都是這種傳統的數據存儲如TERADATA、MicroStrategy包括關係型資料庫,他現在是以現代化的技術架構做他的企業的數據處理,像kafka。

平台團隊的演進,從原來的這種ETL、Reporting、DBA這樣的團隊到現在的整個的這種全功能的這種團隊。

我們可以看到Netfix對於數據和技術的投入是非常大的,他們整個的機器學習,有Netfix研究院,非常關注機器學習的推薦和用戶、用數據做分析、用戶體驗,還有用戶分析平台,有自己的開源的很多系統,大家可以上去了解。

最後快速的過一下他的關鍵組件,我覺得這兩點對於我們數據中台的架構是很有參考意義的,第一個就是他所有數據用戶的入口Big Data Portal,這個我覺得是我們現在疫情的階段,我前兩天做了一個另外一個研究再看這個醫療數據的這種開放。我就看到這個美國的這個CDC疾控中心的網站和我們中國疾控中心的網站,還看了這種中國的政府數據開放的網站,我們就會發現。現在中國在推進數據的開放政府數據的開放公共數據的利用。但是是這樣是可以給我們一些很重要的借鑒的,我們會發現所有的用戶、數據用戶,除了那些有為他特定訂製了數據應用的這種用戶之外,所有的用戶都是統一入口Big Data Portal。這裡面有QueryinsightsTablesS3jobsNotebooks數據分析。大家都在一個平台上去訪問數據和數據的產品,在這一個平台上實現企業級數據的協作加工。那他都有哪些重要的組成部分呢。

這裡面搜索。剛才大家記不記得這個,但是Netfix的一個數據哲學最後一句話。訪問數據時間越短數據價值越大,如何讓用戶最快的找到數據,那最好的話搜索。所以我們現在在給這個有的企業做這種企業級的搜索引擎,實際上搜索會未來會嵌入到企業所有的應用當中去,比如說我們的這個。很大的一個業務應用有非常多的功能,讓你很多時候你找不到你的這個模組兒不知道在哪裡,那這種情況下,要有搜索對不對,你想知道在在在數據應用領域,你想知道說我們現在這個企業有哪些跟用戶相關的數據,搜索,但是你不一定說一定要搜索出把數據搜索出來,但是你要搜索數據的含義、數據的產品,以及這個數據在哪裡。他都用他的這個擁有方式,如何去獲取和使用這些數據。這就是企業資產的搜索數據資產的搜索,我們覺得這是非常重要的一個數據平台或者數據中台的功能。

那這樣的話就有數據資產瀏覽,大家可以看到這裡面然後同時它裡面有數據實驗室無處不在的標籤,tag是非常多的,這點我覺得也是一個趨勢,比如現在舉個例子來講,我個人數據的管理原來都是拿文件夾,這種樹狀結構去管理。非常落後,我現在我自己家裡有數據中心。這個我管理文件用文件夾已經完全管理不了,用什麼管理做好標籤。

這個標籤可以去解決你的這種數據多維度的描述,數據的訪問,這樣的問題。他有自服務的數據平台、面向業務的數據報表、數據運營監控、用戶增長運營、內容運營、多維分析,即時分析、評論協作平台,這裡評論協作平台非常重要,比如說我們舉個例子,現在我們的企業裡面,很多時候都是這個你的報表做的不好,然後好容易找到打一通電話找到你這個人,然後線下兩個人去對,這是一種場景,還有的就是說,你作為一個企業的業務人員,有一個很好的想法,但是你不會技術,又不知道數據在哪裡能獲得。有時候一想這事太麻煩了算了就不搞了。我相信每天每個企業都有非常多有價值的想法,在這樣的場景下被浪費掉,你就不去做了。

那Netfix的這個平台包括說我們前面在一七年,給一個企業也做了這樣的平台類似,就是業務人員只要有想法,就可以在這個平台上發消息有論壇,你有能力自己去找也可以,或者找到對應的人幫你去解決這個問題,大家可以對你的想法去投票,就像一個線上的數據競賽平台一樣。他是一個協作平台。

那剛才就是首頁,有搜索、有可以訂製,每個不同的人進來首頁是不一樣的。然後下圖就是一個負責增長的業務人員的視圖,他就可以看到能夠訪問的數據資產。

再往下就是數據洞察的,下圖是一個全球支付分析的部門的數據分析人員,他進去就可以用不同的工具去處理訪問數據,還有他自己的熟悉方法。你看我們有時候在做這種項目的時候會碰到有的客戶,他就非常習慣用excel而且用得特別好,要解決的問題是如何讓業務人員用他擅長的方法去處理你的數據。在那樣一個場景里,我們就可以幫助客戶去開發這種,他喜歡用excel,你就讓數據平台支援線上的excel,怎麼樣讓他excel的版本管理、數據管理跟你的平台融合起來,這就很重要。

如果你是技術人員數據工程師,那在這平台上,你就可以實時的去管理tables,這些表都是誰負責更新、不同的含義、誰用過,都能夠很清晰的看到。

下圖是這些Schema,元數據的定義,也能夠看到。

Data model,你看這樣的一個Big Data Portal是多麼的有價值。他就是個企業級的數據協作、數據訪問、數據規劃、數據探索的平台。

這是第一個Big Data Portal,是一個企業級的,我覺得這就是我們現在所講的數據中台的終極的體系,從數據的規劃治理,到數據的存儲,到數據的共享協作,到數據價值的探索分析,到數據API的生成,到數據運營,是全套的。

下面第二個重點介紹的就是叫Metaflow。這個提供給數據科學家協作的一個平台,而且我們知道數據科學家往往都是做演算法,那他擅長的事情是做演算法做模型,但他不擅長去部署系統、管理上線、把他的演算法和模型集成變成一個軟體應用。那在很多時候,我們會發現數據的項目很大的壁壘就是演算法工程師跟軟體工程師去溝通,相互看不起,那怎麼樣讓他們能更好地去協作。

那Netfix做了一個非常有意思的系統叫Metaflow。他是基於python的,可以把演算法工程師的這些模型和演算法,用非常簡單的清晰的編排語言把它編排出來,這樣我們現在會發現。演算法決定的是你能做到什麼樣的一個程度,真正這件事情。這樣的一個場景能做到極致,比如說做到100%還是90%的業務價值,基本的決定是數據和業務。業務邏輯和數據確定了,你的演算法和調優只是去無限逼近天花板而已。那如何能快速的去調整演算法,那這就是快速構建試錯,這過程Metaflow起到非常重要的作用。

那我們可以總結一下,Netfix成為數據驅動企業的七個關鍵的組成部分,那他的數據戰略、數據決策、數據應用、數據技術、數據智慧平台、數據團隊和數據文化。

四、關鍵發現

最後來看一下這兩個企業給到我們的一些關鍵的總結和發現。

1、建立清晰的數據戰略是建設的第一步。你看這個富國銀行的一件事情梳理規劃數據戰略,數據戰略包含內容有數據用例、場景用戶、數據平台、數據技術和數據團隊。

2、數據技術和平台能力,包括人工智慧力是規模化應用數據的基礎。

3、找到有價值的業務場景和用例,將數據應用起來是關鍵。

4、建立企業的數據認知和意識,打造數據文化是土壤。這也很重要,很多時候我們會發現在中國企業一個很典型的這個場景是,不是你找不到場景,也不是你不能用數據產生價值,很有可能是IT或者數據的這個領導,他沒有管理好這個期望,沒有構建出這樣的文化和土壤,你還沒到能夠去發揮價值的時候,可能領導層已經失去耐心。所以這個也很重要。

5、讓數據和業務團隊緊密的協作,價值驅動。

6、要這個平台的基礎之上,持續的運營,快速的迭代,達到持續的智慧。

我們回過頭再來看一下是今天講的這兩個案例都能夠一一對應到我們所講的數據中台的六大能力模型。我們來回顧一下數據資產的規劃和治理,這就是數據戰略里非常重要的部,富國銀行做的非常好。數據資產的協作和Netfix他的Big Data Portal把數據資產的共享協作價值探索挖掘、運營度量。服務構建全部穿起來,然後同時把數據資產的存儲和獲取全部整合在一個Big Data Portal里去應用。所以我們會發現這個六大能力模型實際上,他雖然這並不是針對他們去總結,但我們會發現他完全能匹配上。

五、Q&A環節

Q:數據中台和AI台的關係,這個前面上已經講過這個數據中台是。

A:廣義的數據中台,是包含了AI中台的,因為。

純粹的AI中台實際上是一定要跟數據結合在一起,因為他最後他輸出的演算法、模型,是數據服務,我覺得廣義的實際上是數據中台提供經過AI中台加工的智慧服務給業務,這是他們間的關係。

Q:數據中台和數據資產管理、數據治理的概念區別。

A:我覺得數據中台是在某種維度上,它是一個體系,一個組織,一個部門,那數據中台是承載著企業的數據資產管理和數據治理的功能,不是一個維度的這個概念。


【本周直播日曆】

問卷

為了給廣大開發者提供最實用、最熱門前沿、最乾貨的影片教程,請讓我們聽到你的需要,感謝您的時間!點擊填寫 問卷

添加學習君TcloudM加入交流群

騰訊雲大學是騰訊雲旗下面向雲生態用戶的一站式學習成長平台。騰訊雲大學大咖分享每周邀請內部技術大咖,為你提供免費、專業、行業最新技術動態分享。