DataPipeline丨DataOps理念與設計原則

  • 2019 年 10 月 3 日
  • 筆記

作者:DataPipeline CEO 陳誠

 

上周我們探討了數據的「資產負債表」與「現狀」,期間拋給大家一個問題:如果我們製作一個企業的“數據資產負債表”,到底會有多少數據是企業真正的資產?

數據出現問題並不僅僅是數據部門的原因,更多是組織架構及配合的問題。相較於追責某些工具,反而應該思考該用何種理念和方法來面對背後的“元問題”。基於此,我們提出應從DataOps入手。

 

一、DataOps理念

 

Gartner對於DataOps的定義
 

Data ops is the hub for collecting and distributing data, with a mandate to provide controlled access to systems of record for customer and marketing performance data, while protecting privacy, usage restrictions and data integrity.

 

該定義沒錯,不過我們解讀DataOps理念的宗旨在於以最快的速度用數據滿足業務發展需要,並保障其質量。 在業務發展日新月異,且數據、系統和團隊又重度分裂的情形下,我們應當用文化、流程和工具實現數據驅動業務的最佳實踐。 為能深入理解DataOps的理念,我們不妨先進行回顧:

 

過去很多企業投入資源踐行了DAMA(數據管理協會)的數據治理模式,也收到了很多效果,但在新時代的發展需求下,不同的經濟周期里,我們逐漸看到了DAMA數據治理框架的一些局限性和需要調整的地方。 DAMA提出的數據治理框架,非常詳細地闡述了在建設和使用數據過程中常見的問題,諸如組織、流程、角色和一些實踐原理。但最缺失的一點是,在競爭如此激烈的商業環境中,這樣大而全的模式很難嚴格按照配方從一而終地實踐下來,周期太長,見效太慢。

為此,DataOps借用了DAMA數據治理的基礎框架,且揉和了DevOps理念中敏捷快速、持續集成的關鍵點,強調通過調整文化、流程和使用的工具,在安全合規的前提下,快速提升業務價值。同時將持續迭代數據架構,不斷強化組織的數據思維作為核心理念。

接下來我們需要從企業所遭遇的數據困境和數據部門的困境兩個層面進行分析:

 企業的數據需求往往從以高層希望關注的業務指標(KPI)為起點,逐漸發展延伸為中層管理者被動或主動需要關注的指標(KPI),這些指標非常重要,因此很多人說:“凡是高管能看到的KPI指標都會提升。”這句話沒錯,但是只使用這些描述性的指標就像開車時只能看後視鏡,如果以一個相對狹窄而固定的角度去看在企業發展歷程中發生的事,所能得到的結論也是有限的。

 

在經濟上行期,數據的價值很難被重視,因為有很多方式可以增加收入。而在橋水基金創始人Ray Dalio所描述的下行經濟周期中,大眾預期普遍悲觀,增長乏力,需要從粗放轉化到精細經營,而精細化的基礎就是數據。因此企業高管無不在思考,如何能使用數據讓企業儘快向前看,驅動新的增長點,產生更多新的業務價值。但高管們深知,這時只能去激活一線業務用戶使用數據的思維和潛力。而要做到這點,面臨兩個挑戰:

1)讓數據使用安全合規,建立嚴格的權限管控;
2)快速匹配業務部門相應的數據能力和資源。

這兩個重要問題,目前都沒有成熟有效的方法去實踐解決。很多高管希望通過數據建立與外部的連接,變革商業模式,增加收入。不可否認,願景是美好的,但當內部數據出現流轉使用效率低下、質量問題層出不窮等困境時,也只能望洋興嘆。 導致這種局面的本質原因,在於數據部門經常處於一種永遠竭盡全力滿足各種需求,卻始終得不到認可的狀態中。為何如此?

通常數據部門面臨人手不足的問題,因為整個企業,從前台業務、市場,甚至到中後台的財務、供應鏈、人力資源,都在向一個部門提需求,由一個部門承接。其數據的多樣性,業務的變化性,數據量的日益增長給系統穩定性帶來了不小挑戰。導致數據部門每天對外要理解業務數據需求的內涵,竭力排期滿足,對內要運維所使用的陳舊工具和系統,保證其正常運行,每天不堪重負,沒有時間和人力去思考如何自動化、智能化地提高效率。這時,一旦出現數據質量、元數據等問題,就會被挑戰得體無完膚,甚至會升級到能力和信任的高度。

有些企業在業務線中放置業務分析師,希望藉助一些自助分析工具和框架,來分流和緩解數據部門的壓力,這是積極有效的嘗試。但會造成中心化的數據架構部分負載增加,運維難度和成本進一步上升。有時經常因無法說明這些新的開銷對於業務增長的意義,以及責權界限不清,收不到預期的效果。 長此以往,這種落後於時代的組織形式和技術視野會導致企業和數據部門無法真正做到快速響應業務需求。 因此,在這樣的大環境下,我們看到一個機會,一種變革,它包括了:

1)使用數據時,責權清晰的組織架構和規則流程,即DataOps理念,使數據思維在組織內深入人心;

2)將自動化、智能化的現代基礎設施與數據管理體系組合起來賦能企業中的每一個人。用自上而下的信任和管控激發自下而上的自主和創新,從而打破數據組因長期過載而制約企業發展的局面,逐漸從只看後視鏡的困境中走向前後兼顧的未來轉型。

二、DataOps設計原則

 

因此,我們需要在此提出DataOps的五大設計原則:

1)安全合規
2)快速敏捷

3)開放協同

4)自助服務

5)自動智能 

 

安全合規

首先,我們需要根據企業的業務屬性,確定極為清晰且安全合規的數據隱私和權限管控標準。數據協同使用可以讓授權的業務用戶和第三方安全合規地使用企業數據,無需擔心數據的隱私和泄漏,這是一切後續的基礎。否則,就無法真正做到將數據賦能給一線的業務用戶。

快速敏捷

 其次,在合規的基礎上,將一切圍繞數據產生的價值提升到最大,這樣才能不錯失創收的機會。

 

 

開放協同 

將自上而下的描述性指標,轉為將數據開放給業務用戶,進行自下而上地探索和使用。因為業務用戶最了解創新所需要的數據應該如何應用,因此應該最大限度地發揮他們的主觀能動性,帶來業務創新。

 

業務用戶使用數據去探索,是階段性的。從只會用excel到看報表再到寫SQL直至會用python做數據探索,不同的發展階段,數據探索的能力也截然不同。而DataOps倡導的是每個人都應當學習去使用數據,數據不是某個人,某個小組的精英才能掌握的能力,它是一種文化。

自助服務 

通過自助式服務,將數據部門從日常數據使用的生命周期管理中解放出來,以提高數據的時效性。並且要計算使用數據資源的成本,讓數據資產負債的概念深入人心,而不是將數據資源當成免費的午餐,吃完還要“評頭論足”。

自動智能 

讓數據部門全身心地投入到對於自動化、智能化數據科技的實踐中,以最快地速度滿足數據多樣性,動態性,質量監控,系統穩定性的底層技術需求(後續會詳細描述)。 

 

繼上周交代了數據管理目前的現狀以及DataOps出現的背景之後,本篇主要介紹了DataOps理念及設計原則。接下來我們會探討由這些原則衍生出的具體組織架構、技術考量和實施步驟。

 

對上述問題感興趣的夥伴,請持續關注DataPipeline