閑聊大數據是什麼

  • 2020 年 2 月 19 日
  • 筆記

今年回家有人問了我一個問題,大數據是什麼?在這個領域裡工作了這麼久,竟然一時不知道怎麼回答。是的,大數據到底是什麼呢?每個人都在談論,比如大數據分析、大數據XX,政府工作報告上「大數據」這樣的關鍵字眼也經常出現,但是大數據這個名詞含義下到底是什麼呢?

首先查閱百度百科,他是這麼描述的:

大數據(big data),IT行業術語,是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有數據進行分析處理。大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。

讀完後是不是覺得這一大段文字在說啥?讀者可能覺得百度百科可能不靠譜,那麼搜下維基百科呢?

大數據(英語:Big data),又稱為巨量資料,指的是在傳統數據處理應用軟體不足以處理的大或複雜的數據集的術語。 大數據也可以定義為來自各種來源的大量非結構化或結構化數據。從學術角度而言,大數據的出現促成廣泛主題的新穎研究。這也導致各種大數據統計方法的發展。大數據並沒有統計學的抽樣方法;它只是觀察和追蹤發生的事情。因此,大數據通常包含的數據大小超出傳統軟體在可接受的時間內處理的能力。由於近期的技術進步,發布新數據的便捷性以及全球大多數政府對高透明度的要求,大數據分析在現代研究中越來越突出。

這兩段文字說了和沒說一樣,大數據分析和傳統的數據分析到底有什麼區別,無非是一個是大數據,一個是小數據。本質上來說,都是把原始數據進行加工、處理、分析,並從中獲取到資訊的過程。

那麼大數據是什麼呢?大數據和之前的數據分析、挖掘沒有本質上的區別,大數據解決了企業如何在海量的廉價電腦進行穩定可靠的計算的問題。換句話說,大數據本質上是大規模數據處理。

Google沒有在2003年發布了Google File System這篇論文之前,企業最多處理的數據也不過是 1 TB,而要處理這 1 TB的數據則需要滿滿一卡車的機器( Terdata 公司)。企業需要高端的機器才能解決數據處理的問題,高端的機器意味著昂貴,意味著要花很多錢。所以,大數據不可能普及。

Hadoop 誕生並開源後,隨著各個公司的不斷貢獻,Hadoop 可以在越來越多的機器上穩定運行計算。企業終於可以在有限的時間內儘可能多的處理龐大的數據的工具了,有了工具,那麼人工智慧也就有了土壤去生長。

於是,大數據火了。於是,就有了一堆概念。但是本質依然沒有變化,數據分析還是數據分析,數據挖掘還是數據挖掘,20世紀的那套理論依然可以使用,無非就是在分散式系統下重新實現一遍而已。