數據分析與數據挖掘 – 01入門介紹

  • 2020 年 8 月 31 日
  • 筆記

一 數據分析的定義

數據分析就是用合適的方法來發揮出數據的最大價值,這是一門結合了統計學,高等數學,工程學,商業決策等知識的技能,其中高等數學,工程學和統計學這些都是硬技能,而商業決策是屬於軟技能,數據分析師就是具備這些技能的崗位。數據分析師也有所側重點,有的人是商業出身,偏向於商業領域,有的人是統計學出身,偏向於統計領域,有的人是工程學出身,更偏向於it領域。企業在進行招聘的時候,他們會根據自己的需求選擇合適的數據分析師。

顯然,我是工程領域出身,我們的課程是偏向於it領域的,適合往it領域發展的程式設計師入門學習,或者商業領域,統計學領域的數據分析師補充自己。

二 數據分析的產生

在如今的互聯網企業的發展中,流量的增長是一個永恆不變的話題。我們知道拉一個新用戶的成本要遠高於維護一個老客戶的成本。既然這樣,如果我們能夠讓老客戶產生價值,推出合適的營銷策略或者老帶新類似這樣的方案,就能夠用更少的成本產生更大的價值,這也就是數據分析師存在的理由。

三 數據分析的發展

早期的數據分析是使用excel,即使現在也有很多商業領域的數據分析人員依舊在使用。除此之外,還有一些數據分析商用的軟體,比如tableau,spss等等。所使用的方式是先從伺服器導出數據到軟體當中去,然後通過一個功能函數進行數據的處理,比如excel中可以使用vlookup函數來進行縱向查找,最後再進行可視化的處理。顯然,早起的數據分析更側重於呈現結果,然後根據結果對企業的發展作出預測。

具體的過程如下所示:

  1. 分析現狀-通過可視化的現狀來直觀描述企業經營發展中的情況
  2. 發現問題-從呈現結果中預測可能問題的原因
  3. 收集加工-使用更多的數據來驗證問題的產生源頭
  4. 分析策略-結合業務場景分析用戶或者商品的現狀
  5. 提出方案-根據商業邏輯和分析結果提出有效解決方案

我們能夠預見的是,早期數據量比較少,一般都是以G為單位,類似於excel,tableau和spss這樣的軟體,所能夠處理的數據量是有限的,當數據量達到T,TB甚至更大的量級是,這是無法處理的。這就需要it領域的知識來處理這些海量的數據,比如使用MySQL,hlive,hbase等等。

四 數據分析VS數據挖掘

除了數據分析之外,你一定還聽說過數據挖掘,那麼他們之間有什麼異同呢?首先現在的大多數企業已經模糊了對數據分析與數據挖掘的區別,但是他們還是有所差異,具體如下:

  1. 數據分析更多採用統計學的知識,對源數據進行描述性和探索性分析,從結果中發現價值資訊來評估和修正現狀。數據挖掘不僅僅用到統計學的知識,還要用到機器學習的知識,這裡會涉及到模型的概念。數據挖掘具有更深的層次,來發現未知的規律和價值。
  2. 從側重點上來說,相比較而言,數據分析更多依賴於業務知識,數據挖掘更多側重於技術的實現,對於業務的要求稍微有所降低。
  3. 從數據量上來說,數據挖掘往往需要更大數據量,而數據量越大,對於技術的要求也就越高。
  4. 從技術上來說,數據挖掘對於技術的要求更高,需要比較強的編程能力,數學能力和機器學習的能力。
  5. 從結果上來說,數據分析更多側重的是結果的呈現,需要結合業務知識來進行解讀。而數據挖掘的結果是一個模型,通過這個模型來分析整個數據的規律,一次來實現對於未來的預測,比如判斷用戶的特點,用戶適合什麼樣的營銷活動。顯然,數據挖掘比數據分析要更深一個層次。

五 機器學習的流程

上文中我們提到了數據挖掘需要用到機器學習的知識,其實數據挖掘與機器學習的流程是一樣的,具體如下:

  1. 數據源-企業生產中所產生的數據
  2. 預處理-處理臟數據,比如有缺失值,異常值等等,修改數據的格式
  3. 特徵工程-把數據抽象成我們需要的指標或特徵
  4. 數據建模-搭建機器學習的模型,用該模型來訓練數據
  5. 數據驗證-使用測試數據來驗證我們的模型

六 數據的產生

很多時候我們會發現在瀏覽網站或者app時總會給我們推薦一些與我們相關的資訊,這其實就是根據我們的互聯網行為來進行預測的,前端獲取到用戶的行為數據,傳輸到後端,然後存儲到伺服器上,具體行為如下:

  1. 瀏覽網頁時或者app時,你的點擊和停留行為都會被伺服器所記錄,最終存儲到資料庫上
  2. 瀏覽購物app時,你的訂單,添加購物車,收藏,關注等行為
  3. 瀏覽快手,抖音等洗腦app時,你的關注,停留,評論,點贊,轉發等行為都會被記錄在伺服器上

七 數據預處理

預處理就是提前處理一下,當把數據從源中讀取出來之後,我們可能會發現有些數據不符合我們的要求,比如有缺失值或者異常值(年齡為0),我們的處理可能是刪除,也可能是填充,我們把這些臟數據整理成乾淨的數據。除此之外,我們可能還需要進行數據的變換,把原始數據轉化成符合模型要求的數據。

八 數據建模

數據清洗完了之後,進行可視化展示,然後我們使用一條線去擬合這些點,這條線就是一個函數,有了這個函數我們就可以進行預測,這個函數就是一個模型,這就是數據建模的過程。
image.png