小數據的大價值,在DT時代不容忽視的話題
- 2019 年 10 月 10 日
- 筆記
隨著大數據的日益普及,筆者一直在思考一個問題:什麼是小數據?當人們在談論小數據的時候,認為在大數據的話語體系里,應該有小數據的說法。但至於如何認識小數據,如何界定小數據,如何理清小數據跟大數據的關係,以及這個小數據會對目前的大數據產業發展以及管理制度建設方面帶來哪些影響,一直一來沒有相關專業的文章著作或研究成果。
筆者對這個問題研究了很長的時間,也收集了當前中國外對於小數據的相關介紹,本文基於筆者的個人思考,從小數據的背景、屬性、與其他數據的關係等幾個方面詳細闡述「小數據的大價值」這一主題,便於讀者更加清晰、全面的認識小數據。
一背景介紹
大數據這個詞已經提了很多年了,特別是在2013年美國奧巴馬總統頒布大數據研發計劃以後,對全世界的大數據產業發展起了巨大的推動作用。中國在2015年9月發布了《促進大數據發展行動綱要》(以下簡稱《行動綱要》),在全社會引起廣泛影響。《行動綱要》是到目前為止中國促進大數據發展的第一份權威性、系統性文件,從國家大數據發展戰略全局的高度,提出了中國大數據發展的頂層設計,是指導中國未來大數據發展的綱領性文件。為了貫徹《行動綱要》的執行,國家出台了很多相關的政策措施,地方也成立了相應的大數據管理機構。
近幾年來,國家圍繞促進大數據發展制定了一系列重大政策文件,從這些文件內容來看,大數據已經提到了國家發展的戰略層面。然而,我們在這些文件里沒有找到小數據的相關內容,儘管一些文章、報道或專家的說法里會經常提到小數據,但是始終沒有一個科學、準確的界定,所以筆者覺得討論小數據其實是非常有意義的。特別是小數據跟我們原來的資訊資源管理或者資訊資源開發利用等這些概念和政策到底存在什麼樣的關係,因為大數據好像是一個突然冒出來的概念,而且大家覺得大數據好像是萬能的,可以解決一切數據處理的問題,但小數據到底能起到什麼作用呢?這應該才是我們討論這個問題的關鍵出發點。
二小數據的屬性
目前對於小數據的認識主要有三種典型觀點:第一種,小數據泛指零星的弱訊號,往往被當作沒有規範、看似隨機的偏差或噪音。第二種,小數據是指結構化的取樣數據,從取樣來看一般是抽取1-2%或者5%的小樣數據進行整理和評判。最後一種,小數據是指資訊項目和數據規模較小的資料庫。
然而這些觀點對於全面認識大數據來說,仍然不足以作為一個理論化的概念或者體系去構建。筆者認為討論小數據必須明確三個前提:一是人們採集、加工海量數據的時候,通常都是某種具有特定目的的理性行為。二是要體現某種價值,「數據」本身必須能夠表述一個完整的「資訊」。三是完整的資訊應該包含明確的主體、客體和行為。
把數據、資訊、知識和智慧分為四個層次,每個層次都有遞進關係,數據作為原始素材,是最基礎的部分,而智慧則是合理地應用知識並進行正確判斷、決策的能力。

基於上述認識,可以對小數據的屬性做一個基本的界定:小數據應該與數據容量無關,小數據自身應該包含特定意義,小數據應該是一種結構化的數據,小數據應該是對於大數據的數據之間關係的宏觀描述,還有,小數據與大數據是緊密聯繫在一起的,如影隨形,是整個大數據的一部分。
從這個角度出發,筆者對小數據做一個定義,所謂小數據就是指描述並管理大數據的數據屬性的數據。在這個定義的基礎上,可以將小數據分為三大類:第一類,是關於特定類型的大數據的數據屬性的數據;第二類,是描述大數據中所包含主體客體的基本特徵的管理數據;第三類,是描述大數據中的行為過程的數據。其中,第二類又可細分為兩種,一種是對於大數據中所包含的主體、客體的一般屬性的規定,另一種是滿足某類主(客)體屬性的所有對象的數據。
三小數據與元數據、主數據的關係
上述內容中,把小數據劃分為三大類,其中有一類分為兩小類,其實這些類型還可以再進行細分,可以分為元數據和主數據兩種類型。第一類和第三類以及第二類的第一小類應該是一種元數據範疇,第二類的第二小類實際上是一種主數據範疇。從這個角度講,在認識小數據的時候,其實可以應用一些現有的對於數據管理比較成熟的技術、方法去界定,便於全面的認識和了解小數據。

為了進一步細分小數據的具體內涵,先看看元數據。元數據是認識很久的一個概念,最初是從圖書館管理學過來的,現在隨著電腦系統的發展,主要應用在系統的日誌管理以及各方面的應用,現在元數據得到了各行各業普遍的應用。筆者根據DAMA (2009年版)相關內容,對此進行概括,將元數據的領域分為16個方面,從這16個方面來看,每一個行業都可以用元數據的思路去做相應的界定。
表1 元數據可能包含的潛在主題領域
序號 |
主題領域 |
內容描述 |
---|---|---|
1 |
業務分析 |
數據定義、報表、用戶、使用方法和績效 |
2 |
業務架構 |
角色和組織、目的和目標 |
3 |
業務定義 |
有關組織中的一個特定的概念、事實或其他事物的業務術語和解釋 |
4 |
業務規則 |
標準計算公司和衍生方法 |
5 |
數據治理 |
政策、標準、程式、項目、角色、組織和管理職責安排 |
6 |
數據整合 |
數據源、數據目標、數據轉換規則、數據血緣關係、ETL工作流、EAI、EII、遷移和變換 |
7 |
數據品質 |
缺陷、度量和評級 |
8 |
文檔內容管理 |
非結構化數據、文檔、術語分類、本體、命名集合、法律發現、搜索引擎索引 |
9 |
資訊技術架構 |
平台、網路、配置和許可證 |
10 |
邏輯數據模型 |
實體、屬性、關係和規則、業務名稱和定義 |
11 |
物理數據模型 |
文件、表、列、視圖、業務定義、索引使用、性能、變更管理 |
12 |
流程模型 |
職能、活動、角色、輸入、輸出、工作流、業務規則、定時、存儲 |
13 |
系統群和IT治理 |
資料庫、應用程式、項目和計劃、整合路線圖、變更管理 |
14 |
面向服務架構(SOA)資訊 |
組件、服務、消息、主數據 |
15 |
系統設計和開發 |
需求、設計、測試計劃、影響 |
16 |
系統管理 |
數據安全、許可證、配置、可靠性、服務水平 |
同時,元數據類型可分為業務元數據、技術操作元數據、流程元數據及數據管理制度元數據,從屬性來看,元數據包括各行各業、各個領域、各個方面,每一個資訊系統裡面都存在著元數據的建設問題。
表2 元數據類型、屬性與內容
元數據類型 |
屬性與內容 |
---|---|
業務元數據 |
主題和概念領域、實體及屬性的業務名稱和業務定義,屬性的數據類型和其他特性,範圍描述,計算公式,演算法和業務規則,以及有效值域及其定義 |
技術與操作元數據 |
技術元數據包括物理資料庫表名和欄位名、欄位屬性、其他資料庫對象的屬性和數據存儲特性;操作元數據主要用於滿足IT運維用戶的需求,包括數據遷移資訊、數據源和目標系統資訊、批處理程式、任務頻率、調度異常處理、備份與恢復資訊、歸檔規則和使用等資訊 |
流程元數據 |
定義和描述系統的其他元素(如流程、業務規則、程式、任務、工具等)的特性的數據 |
數據管理制度元數據 |
關於數據管理專員、監管制度流程和責任分配的數據 |
主數據的概念由來已久,應用實例也比較多,比如在稅務行業方面,稅務局在按納稅人來做分析統計時會發現,關於納稅人的基本資訊往往分布在核心徵收管理系統、發票管理系統、個人所得稅系統、增值稅管理系統等幾十個系統中,使得統計分析非常困難。比如在產品管理方面,由於不是根據供應商所要求的有關產品層次的分類去建立自身的內部產品管理體系,醫療設備公司對各個產品的描述往往很不一樣,因而在建立和維護產品目錄方面就非常困難。
隨著業務的發展,無論是對企業還是對政府管理部門來說,生成並維護一個統一的主數據管理系統已經變得十分迫切和必要。例如,對跨國公司而言,如何在不同的地區(各個國家和地區)的業務系統之間維護關於客戶、產品目錄、供應商等資訊的單一視圖是非常重要的;同樣,對於有關個人身份資訊的行政管理事務而言,建立全國統一的居民身份基礎資訊共享系統在當前具有非常現實的價值。目前駕駛證號已經採用居民身份證號,為管理交通事故肇事逃逸案件發揮了良好的作用。
筆者在2009年開展國家標準化工作時,認識到基礎資訊資源主數據是我們認識的一個基本工具,並對主數據做了相關研究,筆者把主數據定義為滿足跨部門業務協同需要的、反映核心業務實體狀態屬性的企業(組織機構)基礎資訊。主數據相對於政府部門或企業等有不同的認識,不同的行業有不同的認識要求,比如說對於法人的基礎資訊,這是依法認定,是它的重要特色,而對於其他的資產管理來說就不一定說是依法認定的,只要在業務屬性上有必要把它當成基礎數據來看,特別是滿足主數據的特點就可以把它當成主數據來管理。
主數據與其他數據的關係,筆者做了一個劃分,業務數據包括主數據和交易數據。所謂業務數據,是指業務實體完成一項具體行為過程的完整的數據,我們去辦業務的時候,留下的數據資訊記錄都算是業務數據。所謂的交易數據,是業務實體基於業務行為規則而發生的具體行為過程數據。交易數據是每次去做什麼事情的時候,一種特定的、法定的、依據產生的過程的一種記錄。

元數據和主數據之間有著密切的關係。從概念和邏輯上講,主數據(結構)屬於元數據的一個子集,是一種特定類型的元數據。但是,從產品上講,主數據和元數據是兩個完全不同的概念:元數據是指表示數據的經過抽象的相關資訊,比如數據定義等;而主數據是指實例數據,比如產品目錄資訊等。由於主數據對於業務系統建設具有獨特地位,所以往往將其獨立出來並單獨建設、維護,例如客戶關係管理系統(CRM)等。另外,無論是主數據還是元數據,都不是系統自行產生的數據,而是在規劃建設資訊系統時、從加強業務系統管理角度出發所構建的數據(庫)。
四小數據對於大數據產業發展的重要意義
在大數據中,小數據是一個非常重要的內容,要正確地認識大數據就必須把小數據認識清楚,只有認識清楚了小數據,對於大數據才能有一個科學的、合理的、正確的認識,所以小數據對於認識大數據應該是一個基礎性的工作。對於中國來說,為了促進大數據產業發展,應當充分借鑒和應用小數據的基本理論框架,深化對於大數據產業的管理或應用。如何充分發揮小數據對於大數據產業發展的重要作用,筆者認為可以從以下三個方面深入開展相關工作。
首先,應該深化對於小數據的認識,將小數據作為數據科學的重要內容,從數據屬性、知識管理、數據架構等方面對小數據進行專題研究,特別是要把小數據的建設納入到大數據產業發展的話語體系。
第二,加強宣傳,克服當前一些對於大數據不合理的觀念,消除認識誤區。現在大數據發展以後很多基層民眾對它的認識很不清楚,甚至對於部分專業人士來說,也存在著很多困惑。近年來,大數據產業的爆髮式增長掩蓋了人們對於傳統資料庫技術特別是結構化數據管理的關注,好像大數據跟我們平常的工作沒有關係,只要用了大數據的系統,這個數據的管理、決策就全包了,給人造成一種假象,認為大數據技術本身就可以解決數據處理的一切問題。筆者認為原來做的那些基礎數據管理的工作仍然是非常必要的,而且是一個非常基礎性的工作,後續採用新的大數據分析工具的時候,仍然是必不可少的內容。實際上在一些大數據的架構框架中,通過數據清洗等工作有助於解決數據的分化、分離的問題,更多的是把元數據和主數據給剔除出來,如果事先將小數據認識清楚的話,進一步提升對於大數據價值的利用分析過程。所以小數據還是具有很深的政策含義,對於當前大數據產業發展仍然是一個非常重要認識的理念,為消除人們的認識假象,今後應該在有關大數據產業發展的政策文件、論壇活動等方面,突出小數據發展議題,在大數據產業發展政策、規劃和重要的資訊系統建設中設立小數據發展專項等。
第三,應該基於小數據建立和完善中國的數據管理體系,促進中國大數據產業健康發展。近年來中國各級政府發布了大量促進大數據產業發展的政策文件。但是,這些政策文件著力解決的是如何促進大數據產業發展,而對如何構建數據管理體系著墨不多。由於沒有建立完善的數據管理體系,中國大數據產業普遍存在著數據品質不高、價值無法得到高效發揮等諸多問題。隨著中國大數據產業的深入發展,這些問題勢必不斷加劇並嚴重阻礙中國大數據產業的健康發展。因此,建立和完善國家數據管理體系迫在眉睫。根據《DAMA數據管理知識體系指南》,數據管理體系主要包括數據治理、數據架構管理、數據開發、數據操作管理、數據安全管理、參考數據和主數據管理、數據倉庫和商務智慧管理、文檔和內容管理、元數據管理、數據品質管理等十個數據管理職能,其中元數據和主數據都各自成為一個獨立的組成部分,可見小數據對於數據管理體系建設的極端重要性。
筆者認為,從中國的大數據展現的管理來講,可以借鑒DAMA的內容,但是DAMA的內容只能作為參考,目前中國大數據產業的發展仍然有許多的問題需要處理,比如基礎數據建設、數據合規性的管理、以及一些特定行業跟行政管理體制的關係等,如何共同認識小數據和大數據,這對於大數據的產業發展都是非常有必要的,而且對於中國數據開發管理體制建設來說都是基礎性的工作,小數據一個非常重要的理論上或認識上的概念。建立和完善數據管理體系,是保障中國大數據產業健康發展的基礎條件。但是,這也是一項長期艱巨的任務。從工作需要出發,當前應該基於元數據和主數據管理的理論和方法,構建中國相關行業領域的小數據管理體系。
總結
本文內容基於筆者的個人見解,有些觀點不太成熟,仁者見仁、智者見智,希望能拋磚引玉,引發各位讀者對這個問題的廣泛思考,在本文的基礎上提出更加專業、更加深入的建議,建立更具有實際指導意義的認識體系或者理論體系,深化大數據產業的快速、健康發展,促進中國大數據走在世界前列。