超級菜鳥如何入門數據分析?(建議收藏)

  • 2020 年 2 月 20 日
  • 筆記

以下文章來源於數據管道 ,作者寶器

導讀:今天這篇文章是筆者在知乎上的一個問答,超級菜鳥如何入門數據分析?

以下是我的回答的大致全文(很長,建議收藏閱讀)。

作者:寶器

來源:數據管道(ID:adc9556)

經常看到很多朋友會問,入行數據分析之前我要不要學個java,學個Tableau,然後在學個Python會比較容易。好像是說,數據分析一定需要Python才能做,分析變成了為某種程式語言、某種可視化工具服務。

其實這樣誤區的是很不對的,按這種方式學習下去,即使最後Python學的很好,也挺難找到一份數據分析的工作。

01 什麼是數據分析

所以在討論這個話題之前,第一個問題可能要思考的是什麼是數據分析。為了簡便,第一部分先用之前整理的幾張圖回答:

02 數據分析職業發展不同階段

第二部分談的是關於數據分析這個崗位不同階段所需要業務能力和技能需求(這一部分來源參考了各種大佬的解答)。

第一階段:助理分析師

這是個使命必達的階段,你核心要做的是快速學習,執行配合,業務能力上你需要做到幾點:

  • 問題識別:在一定指導下準確識別問題
  • 分析規劃:在一定知道下完成分析規劃
  • 數據獲取:提取簡單數據,了解分析方法
  • 展示演示:能夠形成報告,展示分析結果
  • 價值應用:完成業務需求,提出自己的見解
  • 執行和管理能力:合理分配和安排,完成分析任務即可
  • 影響力:這一階段基本上是學習階段,沒什麼大的影響力

第二階段:數據分析師

這是個無懈可擊的階段,你核心要做的是獨立執行,小有成就,業務能力上你需要做到幾點:

  • 問題識別:能夠獨立清晰的識別問題
  • 分析規劃:明確範圍並做好分析規劃
  • 數據獲取:熟練提取數據,應用分析方法
  • 展示演示:展現的條理、邏輯、表達清晰
  • 價值應用:提出建議並推動建議被採納
  • 執行和管理能力:作為核心成員、控制項目進度和品質
  • 影響力:推動建議被採納,跨團隊溝通協調

第三階段:資深數據分析師

這是個無中生有的階段,你核心要做的是發掘項目,主動執行,業務能力上你需要做到幾點:

  • 問題識別:發現問題並轉化成分析目標
  • 分析規劃:提煉問題並做好分析規劃
  • 數據獲取:熟練提取數據,指導員工分析
  • 展示演示:結論突出清晰、指導員工
  • 價值應用:提出有效建議,獨立主動
  • 執行和管理能力:領導跨部門項目、尋求資源
  • 影響力:具備一定判斷力和影響力

第四階段:數據分析專家

這是個獨當一面的階段,你核心要做的是推動業務,輔導團隊,業務能力上你需要做到幾點:

  • 問題識別:識別問題並推動解決問題
  • 分析規劃:提煉問題並做好分析規劃
  • 數據獲取:熟練提取數據,指導員工分析
  • 展示演示:結論突出清晰、指導員工
  • 價值應用:提出有效建議,獨立主動
  • 執行和管理能力:完成影響力大的複雜項目
  • 影響力:具備較強判斷力和影響力

第五階段:高級數據分析專家

這是個紅杏出牆的階段,你核心要做的是統籌規劃,名聲在外,業務能力上你需要做到幾點:

  • 問題識別:思考數據的價值並規劃推進
  • 分析規劃:提煉問題並做好分析規劃
  • 數據獲取:熟練提取數據,指導員工分析
  • 展示演示:結論突出清晰、指導員工
  • 價值應用:提出有效建議,獨立主動
  • 執行和管理能力:完成影響力大的複雜項目
  • 影響力:分享和指導,在公司層面具有強影響力

第六階段:資深數據分析專家

這是個諸葛連弩的階段,你核心要做的是參與決策、指揮有度,業務能力上你需要做到幾點:

  • 問題識別:提出業務的前瞻性建議
  • 分析規劃:提煉問題並做好分析規劃
  • 數據獲取:熟練提取數據,指導員工分析
  • 展示演示:結論突出清晰、指導員工
  • 價值應用:提出有效建議,獨立主動
  • 執行和管理能力:完成影響力大的複雜項目
  • 影響力:在專業領域有一定影響力

03 你需要的技能樹拆解

這一部分談的數據從業者需要學習的一些技能,下圖後面有拆解版(圖打開看更清晰)。

概括為以下內容:

1. SQL腳本取數

SQL一定要寫的非常熟練,最好是熟悉Hive-sql,可參見以下文章:3道TMD熱門數據分析面試題,我們幫你解了

2. 統計學理論

統計學可分兩部分學習,第一部分是描述性統計,分別要掌握以下知識點:

第二部分是推斷性統計,你最少要知道中心極限定理、大數定律、置信區間、假設檢驗、t檢驗、f檢驗、卡方檢驗、ABtest等等。(面試考這一部分較多)可參考這篇文章:什麼是A/B test?有哪些流程?有什麼用?終於有人講明白了

3. 機器學習理論

這部分你需要從幾點準備,第一要理解每個演算法的應用背景,優缺點(最重要的)。第二,熟悉常見的公式推倒(不需要每個都會)。大致要掌握的是邏輯回歸、SVM、決策樹、隨機森林、Adboost、XGboost等集成學習、神經網路。

(DNN、CNN、inception、ResNet、RNN、LSTM等深度學習演算法在數據分析面試中很少問,不需要準備那麼多。)

4. 業務分析

這部分可以從「人人都是產品經理」社區、增長黑客等內容學習,你最少要知道Pv、Uv、DAU等各種指標,如何進行指標拆解、如何進行流量分析、留存分析、用戶行為分析,啥是海盜模型,RFM模型、某個指標下降/上升如何分析等等。筆者之前做流量分析的時候會做一個這樣框架圖:

5. 工具類

  • 語言:非大數據類R、Python最多(比較geek的也有用julia的,不差錢和某些公司要求的用SAS、Matlab)。
  • 可視化:Tableau、plot.ly、d3.js、echarts.js,R裡面的ggplot、ggvis,Python里的bokeh、matplotlib、seaborn、Pyechart等都不錯.
  • 其他框架、類庫(選學):爬蟲(requests、beautifulsoup、scrapy).

04 想好自己的發展方向

數據分析的小方向比較多,分類方法也不盡相同。在這裡根據技術要求的側重點不同,簡單的劃分為三個方向(這部分回答乘次不齊,有的是直接簡單的分技術類和業務類,這裡參考廣大網友作答):

1. BI方向

BI的概念已經出現很久了,但仍然不過時。

重點在於如何設計高效的數據模型,以及如何通過BI工具從多個角度觀察數據,了解數據內部的規律。

傳統的BI工具可以滿足大部分傳統企業的數據分析場景。近些年隨著分析工具功能日趨強大,大數據領域的BI平台也有了長足的發展。所以BI仍然具有強大的生命力。

2. 機器學習方向

機器學習與BI的區別在於,更多的依賴機器模擬人類學習的過程去發現數據內在的規律,構建一個數據模型,通過某些演算法來預測未來的可能性。

機器學習和深度學習概念非常火熱,但相對入門門檻也較高,因為想真正理解那些演算法的原理需要高等數學的基礎。

3. 行業分析方向

還有一些數據分析師,僅僅通過一些公開的市場宏觀數據,通過經濟學和統計學分析方法,觀察經濟的運行狀況,從而發現行業的經濟發展規律,進一步預測未來行業發展的趨勢。這個方向也很不錯的,但是需要對統計和經濟學有一定基礎。

首先要認準自身的優勢,參考上面列出的幾個發展方向,選擇其一進行深入的學習和實踐。

  • 如果電腦基礎比較好,擅長SQL和BI工具,可以向著BI方向發展;
  • 如果數學基礎比較好,可以考慮機器學習方向;
  • 如果對所在行業的業務比較精通,也可以從事業務分析或行業分析方向。

做適合的和喜歡的最重要。不論哪個方向,都是要先掌握工具使用,了解你要分析的業務流程,培養獨到的分析思維模式,鍛煉自己的表達。

05 一些優秀的DA大佬,書籍推薦

Sql類我只看了三本書(我不會推薦sql必知必會系列,對比看,你會發現這裡SQL基礎和進階書寫的非常好,至少是很適合分析師看的資料庫書):

《Sql基礎教程》

《Sql進階教程》

《Hive編程指南》

統計學:

《統計基礎》人大版本

《女士品茶》

《統計陷阱》

《漫畫統計學入門》

《機會的數學》

Python、爬蟲:

《Python學習手冊》

《Python for everyone》

《對比Excel,輕鬆學習Python數據分析》

《Python3網路爬蟲開發實戰》

業務、方法論及其他:

《增長黑客》

《精益數據分析》

《深入淺出數據分析》

《誰說菜鳥不會數據分析》

《決戰大數據》

一些大佬,排名不分先後,履歷真的厲害,有行業領軍人物,有年輕的數據總監,有幾十萬粉的部落客。就不一一介紹了,因為我也是網上看到這些大佬的相關問答,各位有興趣可自己看:

空白白白白:

https://www.zhihu.com/people/jiafeimao/activities

鄒昕:

https://www.zhihu.com/people/xin_zou/activities

張溪夢:

https://www.zhihu.com/people/simonzhang1/activities

何明科:

https://www.zhihu.com/people/he-ming-ke/activities

秦路:

https://www.zhihu.com/people/qin-lu-17/activities

當然還有很多優秀的書籍和作者,這裡不在一一列舉了,希望以上回答對想入手數據分析的朋友有些幫助。

有話要說?

Q: 你已經為數據分析做了哪些準備?

歡迎留言與大家分享