大數據Hadoop入門教程 | (一)概論
數據是什麼
- 數據是指對客觀事件進行記錄並可以鑒別的符號,是對客觀事物的性質、狀態以及相互關係等進行記載的物理符號或這些物理符號的組合,它是可識別的、抽象的符號。
- 它不僅指狹義上的數字,還可以是具有一定意義的文字、字母、數字元號的組合、圖形、影像、影片、音頻等,也是客觀事物的屬性、數量、位置及其相互關係的抽象表示。例如,”0、1、2」、「陰、雨、下降」、”學生的檔案記錄、貨物的運輸情況」等都是數據。
數據如何產生
對客觀事物的計量和記錄產生數據
企業數據分析方向
- 現狀分析(分析當下的數據):現階段的整體情況,各個部分的構成佔比、發展、變動;
- 原因分析(分析過去的數據):某一現狀為什麼發生,確定原因,做出調整優化;
- 離線分析(Batch Processing):面向過去,面向歷史,分析已有的數據;
在時間維度明顯成批次性變化。一周一分析(T+7),一天一分析(T+1),所以也叫做批處理。 - 實時分析(Real Time Processing | Streaming):面向當下,分析實時產生的數據;所謂的實時是指從數據產生到數據分析到數據應用的時間間隔很短,可細分秒級、毫秒級。
- 離線分析(Batch Processing):面向過去,面向歷史,分析已有的數據;
- 預測分析(結合數據預測未來):結合已有數據預測未來發展趨勢。
- 機器學習(Machine Learning):基於歷史數據和當下產生的實時數據預測未來發生的事情;側重於數學演算法的運用,如分類、聚類、關聯、預測。
數據分析六步曲
數據分析步驟(流程)的重要性體現在:對如何開展數據分析提供了強有力的邏輯支撐
張文霖在《數據分析六步曲》說,典型的數據分析應該包含以下幾個步驟:
Step1:明確分析目的和思路
-
目的是整個分析流程的起點,為數據的收集、處理及分析提供清晰的指引方向;
-
思路是使分析框架體系化,比如先分析什麼,後分析什麼,使各分析點之間具有邏輯聯繫,保證分析維度的完整性,分析結果的有效性以及正確性,需要數據分析方法論進行支撐;
-
數據分析方法論是一些營銷管理類相關理論,比如用戶行為理論、PEST分析法、5W2H分析法等。
Step2:數據收集
- 數據從無到有的過程:比如感測器收集氣象數據、埋點收集用戶行為數據
- 數據傳輸搬運的過程:比如採集資料庫數據到數據分析平台
Step3:數據處理
- 準確來說,應該稱之為數據預處理。
- 數據預處理需要對收集到的數據進行加工整理,形成適合數據分析的樣式,主要包括數據清洗、數據轉化、數據提取、數據計算;
- 數據預處理可以保證數據的一致性和有效性,讓數據變成乾淨規整的結構化數據。
Step4:數據分析
- 用適當的分析方法及分析工具,對處理過的數據進行分析,提取有價值的資訊,形成有效結論的過程;
- 需要掌握各種數據分析方法,還要熟悉數據分析軟體的操作;
Step5:數據展現
- 數據展現又稱之為數據可視化,指的是分析結果圖表展示,因為人類是視覺動物;
- 數據可視化(Data Visualization)屬於數據應用的一種;
- 注意,數據分析的結果不是只有可視化展示,還可以繼續數據挖掘(Data Mining)、即席查詢(Ad Hoc)等。
step6:報告撰寫
- 數據分析報告是對整個數據分析過程的一個總結與呈現
- 把數據分析的起因、過程、結果及建議完整地呈現出來,供決策者參考
- 需要有明確的結論,最好有建議或解決方案
總結
一切圍繞著數據
通俗描述:數據從哪裡來、數據到哪裡去
核心步驟:採集、處理、分析、應用
大數據概念
大數據定義
- 大數據(big data)是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合;
- 是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。
大數據5V特徵
- Volume:數據體量大
- Variety:種類、來源多樣化
- Value:低價值密度
- Velocity:速度快
- Veracity:數據的品質
應用場景
- 電商領域:精準廣告位、個性化推薦、大數據殺熟
- 傳媒領域:精準營銷、猜你喜歡、交互推薦
- 金融方面:理財投資,通過對個人的信用評估,風險承擔能力評估,集合眾多理財產品、推薦響應的投資理財產品。
- 安防領域:犯罪預防、天網監控
- 醫療領域:智慧醫療、疾病預防、病源追蹤
分散式與集群
概念
分散式、集群是兩個不同的概念,但口語中經常混淆二者。
- 分散式:多台機器每台機器上部署不同組件
- 集群:多台機器每台機器上部署相同組件
混淆點
- 分散式、集群的共同點是:都是多台機器(伺服器)組成的;
- 因此口語中混淆兩者概念的
- 時候都是:相對於單機來說的。
應用
數據大爆炸,海量數據處理場景面臨問題
-
如何存儲?
- 單機存儲有瓶頸多台機器分散式存儲
-
如何計算?
- 單機計算能力有限多台機器分散式計算
作業系統
概念
- 作業系統(operating system,簡稱OS)是管理電腦硬體與軟體資源的程式,需要處理如:管理與配置記憶體、決定系統資源供需的優先次序、控制輸入設備與輸出設備、操作網路與管理文件系統等基本事務;
- 沒有作業系統的機器稱之為裸機,不管是開發還是使用都十分不便。
- 作業系統也提供一個讓用戶與系統交互的操作介面。
作業系統分類
作業系統發展至今,種類繁多,可以根據應用的不同領域進行劃分:
- 桌面作業系統:所謂的桌面指的是圖形化操作頁面。
- Mac os(Apple)、Windows(Microsoft)、Linux:三足鼎立
- 伺服器作業系統:般指的是安裝在大型電腦上的作業系統。比如Wb伺服器、應用伺服器和資料庫伺服器等,是企業IT系統的基礎架構平台。
- 主要分為四大流派:Unix、Linux、Windows Server和Netware。
- 系統嵌入式作業系統:是一種完全嵌入受控器件內部,為特定應用而設計的專用電腦系統。
- 如μClinux(嵌入式Linux)、WinCE(微軟嵌入式、移動計算平台)、RTOS(嵌入式實時作業系統,軍事航空領域)等。
- 在工業、軍事、航空等領域使用較多。(車機系統)
- 移動設備作業系統:主要應用在智慧手機、平板等智慧設備上。
- 主要有Android(Google)、iOS(蘋果)、Symbian(諾基亞)、BlackBerry 0S(黑莓)、windows mobile(微軟)、Harmony(華為鴻蒙)等。
Linux起源與發展
- Unix系統是較早被廣泛使用的電腦作業系統之一,由Ken Thompson在AT&T貝爾實驗室實現,後續發展中,因開源、版權等問題陷入不斷糾紛,延伸出不同Unix版本;
- 1991年芬蘭學生Linus Torvalds發布Linux:系統第一個版本,遵循GPL協議(通用公共許可證),開源免費;
- Linux是一個類似Unix的作業系統,Linux的初衷就是要替代Unix,並在功能和用戶體驗上進行優化,所以Linux模仿了Unix(但並沒有抄襲Unix的源碼),使得Linux在外觀和交互上與Unix非常類似。
Linux內核(Kernel)
- 作業系統的核心部分簡稱內核,Linux?第一版本獨立內核由Linus Torvalds開發實現,約10000行程式碼;
- 後續Linus Torvalds公開了Linux內核程式碼,並邀請他人一起完善Linux;現在只有2%的Linux核心程式碼是由Linus Torvalds自己編寫,但是仍然擁有Linux內核且保留了選擇新程式碼和需要合併的新方法的最終裁定權;
- Linux作業系統=1 inux Kerne1+GNU軟體及系統軟體+必要的應用程式
- Linuxi選擇企鵝圖案作為Logo,其含義是:開放源程式碼的Linux像企鵝一樣為全人類共同所有。
Linux發行版本
- Linux發行版就是由Linux內核與各種常用軟體的集合產品,如今全球大約有數百款的Linux發行版本。
- 從大的方面來說,Linux2發行版可大致分為個人桌面版和企業伺服器版。
- 個人桌面版中,
Ubuntu
成熟度頗高較受歡迎,而Redhat
(紅帽系列)及其延伸版本(Centos
)憑藉穩定的性能在企業伺服器中佔比很大。
影片鏈接://www.bilibili.com/video/BV1CU4y1N7Sh?p=7&share_source=copy_pc
原創作者:孤飛-部落格園