「死磕」底層數據技術 | 明略科技的數據縱橫

  • 2020 年 11 月 20 日
  • AI

              

什麼是大數據?《大數據時代》的作者舍恩伯格認為,大數據並不能定義—個確切的概念。大數據是人們獲得新的認知,創造新的價值的源泉,大數據是改變市場、組織機構,以及政府和公民關係的方法。

這是更具有人文色彩和社會意義的詮釋。顯然,也更加清楚地指明了大數據帶來的思維變革、商業變革和管理變革。

換句話說,數據給我們帶來了兩個重要的改變:更多資訊、更少成本。

大數據帶來變革的同時,也對數據處理的底層技術有著更高的要求。只有找到如何管控越來越多數據的方法,才能實現數據價值最大化。

雖然,目前各行各業對大數據的研究比較火熱,但對於大數據治理的研究還處於起步階段。這尤其體現在對於數據治理沒有統一的定義。

例如,IBM對於數據治理的定義是:「數據治理是一種品質控制規程,用於在管理、使用、改進和保護組織資訊的過程中添加新的嚴謹性和紀律性。」DGI 則認為數據治理是指在企業數據管理中分配決策權和相關職責。

拋開宏觀定義不談,如果大數據技術能夠探索清楚,那麼從微觀反推宏觀,顯然也使定義更加清晰。

數據處理技術:微觀的定義,宏觀的把握       

在大數據時代,一切數據都是有意義的。因為通過數據採集、數據存儲、數據管理、數據分析與挖掘、數據展現等,我們可以發現很多有用的或有意思的規律和結論。

比如,上海交通刷卡資訊,分析這些刷卡記錄,可以清晰了解上海市民的出行規律,來有效改善城市交通。

但這些出行數據 ,不是想用就能用的,需要通過「存儲」「計算」「智慧」來對數據進行加工和支撐,從而實現數據的增值。

而在這其中,最關鍵的問題不僅在數據技術本身,也在於是否實現兩個標準:第一,數據記錄,是否足夠多,足夠有價值;第二,是否找到適合的數據技術的業務應用。

大數據處理技術大致可以分為五個部分:大數據採集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。

              

以上五個部分的概念,在學術界和工業界有不同的理解。2014 年,數據挖掘大牛吳信東等人從另一個角度探索了大數據處理技術的框架——基於大數據具有異構、自治的數據源以及複雜和演變的數據關聯等本質特徵提出了HACE 原理,該原理從大數據的數據處理、領域應用以及數據挖掘三個層次來刻畫大數據處理框架。

吳信東現任明略科技集團首席科學家和明略科學院院長,對數據挖掘(Data Mining)、大數據知識工程(BigKE)等領域有很深的認識。

吳信東聯合董丙冰,堵新政,楊威等人在軟體學報上發表了《數據治理》一文,介紹數據治理和大數據治理的概念、發展以及應用的必要性,其次對已有的數據治理技術——數據規範、數據清洗、數據交換和數據集成進行具體的分析,並介紹了數據治理成熟度和數據治理框架設計。

              「HAO 治理」模型架構圖

此外,在這個基礎上明略提出了大數據「HAO 治理」模型,該模型以支援人類智慧(HI)、人工智慧(AI)和組織智慧(OI)三者協同為目標。

總體來說,HAO能實現四個需求:

1.建立全面、動態、可配置的數據接入機制,滿足數據採集、數據匯聚、任務配置、任務調度、數據 加密、斷點續傳等需求。

2. 建立標準化的數據處理流程,形成面向數據內容的數據規範、清洗、關聯、比對、標識等轉換處理 規範模式,為一個組織的數據融合建庫提供支撐。

3. 統籌建設多元集成、融合建庫的數據組織模式,按照業務類型、敏感程度、隱私內容等關鍵要素分 級分類推進雲建庫和存儲管理,採用特徵標籤、歸一集成等多種手段實現不同來源數據資源關聯融合。

4. 構建知識圖譜分類,建設多渠道、多維度的數據服務模式,面向使用者提供查詢檢索、比對排序等基礎數據服務,面向專業人員提供挖掘分析、專家建模等智慧數據服務。

此文是大數據領域的集大成之作。從另一個層面講,明略科技用從實踐和理論證明了構建大數據處理技術的實力。

數據中台:數據處理技術的衡量指標

        

隨著數據處理技術越來越成熟,當前業界和學界也提出了可以衡量企業底層數據處理技術的”指標”:數據中台。

關於數據中台尚沒有統一且規範的定義,近日,吳信東在《自動化學報》的最新一篇文章中,基於數據共享和數據價值最大化的原則,將數據中台定義為:將一個機構 (企業、事業、或政府部門) 的數據作為戰略資產進行管理, 是從數據收集到處理應用的一套管理機制, 以期提高數據品質, 實現廣泛的數據共享, 最終實現數據價值最大化。數據中台建設覆蓋數據的邏輯管理和物理管理,邏輯管理包括數據結構的設計和數據之間相關性的分析, 如數據倉庫; 物理管理包括數據的存儲和檢索。

基於以上定義,明略科技將數據中台的核心可以歸納為「數據資產管理」。其核心功能大概可以歸納為7個部分:

1. 數據的物理管理: 包括多源數據的採集、匯 聚、存儲、索引和檢索。

2. 數據的邏輯管理: 包括: a) 數據治理;b) 數據之間的層次建模和相關性分析;

3.數據服務: 用數據實現多樣化的用戶服務。

4.知識圖譜建設: 融入機構的知識體系和組織 智慧, 用以界定數據的來源和數據的服務範圍.

5. 數據資產管理: 對數據對象和數據服務進 行價值定義、保護、組織和管理, 實現數據價值的最 大化。

6.客戶關係管理: 採集和分析用戶對數據和數 據服務的使用行為, 理解和進一步服務用戶的需求。

7.資訊安全: 保證中台上的數據和服務在物理層和邏輯層都是安全的。

顯然,明略科技的數據中台,在融合數據的基礎上,更要關注是否能夠積累和沉澱行業知識,將數據智慧和組織智慧融合,形成行業智慧,更敏捷更快速的響應前端業務的變化,更好的協作創新。

當前關於數據中台建設尚處於起步階段, 面臨著技術不成熟、框架驗證標準不一、技術人員缺乏等困難和挑戰。

這向企業發出了數據中台的「破局」之問:「怎樣建設數據中台才能滿足現實需求」。吳信東在《自動化學報》中提到,必須根據數據特點和應用需求調整各個模組的具體實現。

例如, 在物流領域的數據中台建設中, 面對數據維度高、數據類型複雜、數據量大、實時數據採集困難等問題, 需要有高性能的數據分析和計算平台, 會給現有數據中台建設的技術帶來很大的挑戰。

根據吳信東提到的原則,回過頭來看明略科技歸納的數據中台7大核心功能,能夠回答數據中台的「破局」之問。這7個核心功能能夠讓「從業者」看到三個前景:

1、實現機構數據資產的高效管理和數據價值最大化: 在爆炸式數據增長的時代, 海量數據的 存儲、管理和價值的實現是企業面對的一個主要問 題, 數據中台可望能夠有效地盤活機構數據資源, 將 其轉化為數據資產, 通過更貼近業務數據服務 API 實現數據價值的最大化。

2. 能夠迅速根據時代變化調整機構的發展方向和快速創新相應用戶需求: 數據中台是一個 完整的數據服務體系, 為機構帶來了數據平台化的 運營機制, 可望解決應用開發與數據開發速度不匹 配的問題, 因而, 數據中台為一個機構根據時代發展 要求調整機構的戰略提供了契機。

3. 提升機構內團隊協作能力: 原始機構的 業務各自發展, 可能導致出現煙囪式應用開發和數 據孤島等問題, 數據中台的出現, 可以將機構的核心 技術或團隊凝聚在一起, 建設機構內強大的數據開 發、運營等團隊, 提升機構的團隊的硬實力和軟實力。

行業應用:數據中台的「煉金石」

產業應用的背後,都是底層技術的支撐。底層技術越雄厚,行業應用越「熟練」。

         

而數據中台,這一需要理論技術和實踐相結合的領域更是如此。例如:

              

在電力行業,明略科技幫助某省國網建設自己的數據中台。打通了136個業務系統,接入了6300多張報表,2800多億條數據。將各個業務系統實現數據打通、數據共享,構建了具有貼源層、明細層、匯總層、集市層四層架構的數據倉庫,支撐起全省數據服務。設計了15類實體、16種關係、68個屬性,通過從不同來源不同的結構數據中進行知識抽取,形成知識存入到知識圖譜,並服務於諸如停電範圍自動計算等電力行業實際工作。工作人員只需要輸入需要計劃性維護、排故的台區,根據設備依賴關係精確計算出停電範圍。此外,明略科技還在業務側研發了智慧問答助手,巡視人員通過智慧問答助手就可以了解輸電線路故障解決方案。

              圖註:智慧零售中台解決方案

在零售行業,明略科技的智慧零售中台,能緊緊把握住數據特點和應用需求,打造柔性供應鏈,實現拉動式生產;打通訊息壁壘,協同企業各部門高效運轉;以顧客為中心,個性化精準營銷;以數據為依託,輔助企業智慧決策;協助企業快速響應並融入創新市場。

              

營銷領域,明略科技的營銷數據中台,能夠全方位的幫助企業實現數據整合、數據治理、數據建模和數據服務化,涵蓋 DMP 和 CDP 所有功能,並能基於企業對於數據的管理需求和商業化應用方向給予訂製化支援。助力企業實現基於智慧營銷和消費者智慧運營及管理的數據管理、洞察分析和決策支援、數據激活、數據沉澱及數據閉環管理和應用等全方位營銷數字化體系。

明略的數據野望:縱橫兼顧

判斷一個企業的數據治理技術的底蘊,關鍵要看這個企業的對數據中台這一新興概念的理解。

明略科技在中台上的優勢,恰恰在於,其本身就是大數據的軟體產品、平台和智慧服務商。基於自身定位,恰好能實現上下銜接,將業務著眼於數據價值的挖掘和應用。

在更多行業領域,通用能力需要橫向遷移,而新領域的行業知識和專家經驗,需要用做數據治理的經驗,再去逐漸匹配行業。

顯然,在這一點上,明略科技也很明確自己的方向。雷鋒網雷鋒網雷鋒網