大數據Hadoop入門教程 | (一)概論

數據是什麼

  • 數據是指對客觀事件進行記錄並可以鑒別的符號,是對客觀事物的性質、狀態以及相互關係等進行記載的物理符號或這些物理符號的組合,它是可識別的、抽象的符號。
  • 它不僅指狹義上的數字,還可以是具有一定意義的文字、字母、數字元號的組合、圖形、影像、影片、音頻等,也是客觀事物的屬性、數量、位置及其相互關係的抽象表示。例如,”0、1、2」、「陰、雨、下降」、”學生的檔案記錄、貨物的運輸情況」等都是數據。

數據如何產生

對客觀事物的計量和記錄產生數據

企業數據分析方向

  • 現狀分析(分析當下的數據):現階段的整體情況,各個部分的構成佔比、發展、變動;
  • 原因分析(分析過去的數據):某一現狀為什麼發生,確定原因,做出調整優化;
    • 離線分析(Batch Processing):面向過去,面向歷史,分析已有的數據;
      在時間維度明顯成批次性變化。一周一分析(T+7),一天一分析(T+1),所以也叫做批處理。
    • 實時分析(Real Time Processing | Streaming):面向當下,分析實時產生的數據;所謂的實時是指從數據產生到數據分析到數據應用的時間間隔很短,可細分秒級、毫秒級。
  • 預測分析(結合數據預測未來):結合已有數據預測未來發展趨勢。
    • 機器學習(Machine Learning):基於歷史數據和當下產生的實時數據預測未來發生的事情;側重於數學演算法的運用,如分類、聚類、關聯、預測。

數據分析六步曲

數據分析步驟(流程)的重要性體現在:對如何開展數據分析提供了強有力的邏輯支撐

張文霖在《數據分析六步曲》說,典型的數據分析應該包含以下幾個步驟:

Step1:明確分析目的和思路

  • 目的是整個分析流程的起點,為數據的收集、處理及分析提供清晰的指引方向;

  • 思路是使分析框架體系化,比如先分析什麼,後分析什麼,使各分析點之間具有邏輯聯繫,保證分析維度的完整性,分析結果的有效性以及正確性,需要數據分析方法論進行支撐;

  • 數據分析方法論是一些營銷管理類相關理論,比如用戶行為理論、PEST分析法、5W2H分析法等。

Step2:數據收集

  • 數據從無到有的過程:比如感測器收集氣象數據、埋點收集用戶行為數據
  • 數據傳輸搬運的過程:比如採集資料庫數據到數據分析平台

Step3:數據處理

  • 準確來說,應該稱之為數據預處理
  • 數據預處理需要對收集到的數據進行加工整理,形成適合數據分析的樣式,主要包括數據清洗數據轉化數據提取數據計算
  • 數據預處理可以保證數據的一致性和有效性,讓數據變成乾淨規整結構化數據

Step4:數據分析

  • 用適當的分析方法及分析工具,對處理過的數據進行分析,提取有價值的資訊,形成有效結論的過程;
  • 需要掌握各種數據分析方法,還要熟悉數據分析軟體的操作;

Step5:數據展現

  • 數據展現又稱之為數據可視化,指的是分析結果圖表展示,因為人類是視覺動物;
  • 數據可視化(Data Visualization)屬於數據應用的一種;
  • 注意,數據分析的結果不是只有可視化展示,還可以繼續數據挖掘(Data Mining)、即席查詢(Ad Hoc)等。

step6:報告撰寫

  • 數據分析報告是對整個數據分析過程的一個總結與呈現
  • 把數據分析的起因、過程、結果及建議完整地呈現出來,供決策者參考
  • 需要有明確的結論,最好有建議或解決方案

總結

一切圍繞著數據

通俗描述:數據從哪裡來、數據到哪裡去

核心步驟:採集、處理、分析、應用

大數據概念

大數據定義

  • 大數據(big data)是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合;
  • 是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

大數據5V特徵

  • Volume:數據體量大
  • Variety:種類、來源多樣化
  • Value:低價值密度
  • Velocity:速度快
  • Veracity:數據的品質

應用場景

  • 電商領域:精準廣告位、個性化推薦、大數據殺熟
  • 傳媒領域:精準營銷、猜你喜歡、交互推薦
  • 金融方面:理財投資,通過對個人的信用評估,風險承擔能力評估,集合眾多理財產品、推薦響應的投資理財產品。
  • 安防領域:犯罪預防、天網監控
  • 醫療領域:智慧醫療、疾病預防、病源追蹤

分散式與集群

概念

分散式、集群是兩個不同的概念,但口語中經常混淆二者。

  • 分散式:多台機器每台機器上部署不同組件
  • 集群:多台機器每台機器上部署相同組件

混淆點

  • 分散式、集群的共同點是:都是多台機器(伺服器)組成的
  • 因此口語中混淆兩者概念的
  • 時候都是:相對於單機來說的

應用

數據大爆炸,海量數據處理場景面臨問題

  • 如何存儲?

    • 單機存儲有瓶頸多台機器分散式存儲
  • 如何計算?

    • 單機計算能力有限多台機器分散式計算

作業系統

概念

  • 作業系統(operating system,簡稱OS)是管理電腦硬體與軟體資源的程式,需要處理如:管理與配置記憶體、決定系統資源供需的優先次序、控制輸入設備與輸出設備、操作網路與管理文件系統等基本事務;
  • 沒有作業系統的機器稱之為裸機,不管是開發還是使用都十分不便。
  • 作業系統也提供一個讓用戶與系統交互的操作介面

作業系統分類

作業系統發展至今,種類繁多,可以根據應用的不同領域進行劃分:

  • 桌面作業系統:所謂的桌面指的是圖形化操作頁面。
    • Mac os(Apple)、Windows(Microsoft)、Linux:三足鼎立
  • 伺服器作業系統:般指的是安裝在大型電腦上的作業系統。比如Wb伺服器、應用伺服器和資料庫伺服器等,是企業IT系統的基礎架構平台。
    • 主要分為四大流派:Unix、Linux、Windows Server和Netware。
  • 系統嵌入式作業系統:是一種完全嵌入受控器件內部,為特定應用而設計的專用電腦系統。
    • 如μClinux(嵌入式Linux)、WinCE(微軟嵌入式、移動計算平台)、RTOS(嵌入式實時作業系統,軍事航空領域)等。
    • 在工業、軍事、航空等領域使用較多。(車機系統)
  • 移動設備作業系統:主要應用在智慧手機、平板等智慧設備上。
    • 主要有Android(Google)、iOS(蘋果)、Symbian(諾基亞)、BlackBerry 0S(黑莓)、windows mobile(微軟)、Harmony(華為鴻蒙)等。

Linux起源與發展

  • Unix系統是較早被廣泛使用的電腦作業系統之一,由Ken Thompson在AT&T貝爾實驗室實現,後續發展中,因開源、版權等問題陷入不斷糾紛,延伸出不同Unix版本;
  • 1991年芬蘭學生Linus Torvalds發布Linux:系統第一個版本,遵循GPL協議(通用公共許可證),開源免費;
  • Linux是一個類似Unix的作業系統,Linux的初衷就是要替代Unix,並在功能和用戶體驗上進行優化,所以Linux模仿了Unix(但並沒有抄襲Unix的源碼),使得Linux在外觀和交互上與Unix非常類似。

Linux內核(Kernel)

  • 作業系統的核心部分簡稱內核,Linux?第一版本獨立內核由Linus Torvalds開發實現,約10000行程式碼;
  • 後續Linus Torvalds公開了Linux內核程式碼,並邀請他人一起完善Linux;現在只有2%的Linux核心程式碼是由Linus Torvalds自己編寫,但是仍然擁有Linux內核且保留了選擇新程式碼和需要合併的新方法的最終裁定權;
  • Linux作業系統=1 inux Kerne1+GNU軟體及系統軟體+必要的應用程式
  • Linuxi選擇企鵝圖案作為Logo,其含義是:開放源程式碼的Linux像企鵝一樣為全人類共同所有。

Linux發行版本

  • Linux發行版就是由Linux內核與各種常用軟體的集合產品,如今全球大約有數百款的Linux發行版本。
  • 從大的方面來說,Linux2發行版可大致分為個人桌面版企業伺服器版
  • 個人桌面版中,Ubuntu成熟度頗高較受歡迎,而Redhat(紅帽系列)及其延伸版本(Centos)憑藉穩定的性能在企業伺服器中佔比很大。

影片鏈接://www.bilibili.com/video/BV1CU4y1N7Sh?p=7&share_source=copy_pc
原創作者:孤飛-部落格園

Tags: