如何做出優秀的數據分析項目(現場測試版)

  • 2019 年 12 月 9 日
  • 筆記

臨近年底,很多同學問:「如何做出優秀的數據分析項目?不然年終總結都不知道咋寫」。今天系統回答一下。想做好數據分析類項目,主要靠的是:樹立正確的觀念。這裡有5道測試題,一起來測一測自己有多大可能做出好項目。

要考試了好緊張

題目一(單選題)

1、數據分析項目好壞的衡量指標是:

A、時間、成本、品質

B、演算法難度、統計學知識、數學公式

這個題目是最重要的觀念,直接決定了一個數據分析師在當前公司混的好壞。數據分析工作有它的特殊性:

★ 它不同於銷售,不能直接為公司創收。

★ 它不同於運營,不能直接拉升活躍留存付費指標。

★ 它不同於交易/網站/ERP系統的開發,這些系統是業務必須的支撐。

★ 它不同於DBA,沒有DBA的公司不存在,沒有專職分析師的公司大把

數據分析工作本質上是一個可替代程度很高的輔助崗位。在數據分析觀念普及前,很多公司都是找個會寫sql的程式設計師來頂找個崗位的。就像瞄準鏡與槍的關係,沒有瞄準鏡槍照打,有了瞄準鏡,槍可以打的更准。

因此,雖然數據分析背後有演算法、統計學、數據做支撐,可企業care的不是這些書本章節,而是到底對業務有什麼用?有多大用?同企業里其他項目一樣。數據分析項目最重要的就是考察時間、成本、品質。

如果脫離了這些,空洞的追求「我用的方法好複雜,我好厲害」。那還是會學校里做科研好了,科研才需要追求高精尖,企業里追求的是:在達成目標的情況下,成本越低越好,時間越短越好所以這個題一定選A。

很多剛畢業的、轉行的、新加入的數據分析師喜歡選B,選B也不代表沒前途。

因為選B的同學會花很大精力死磕書本,這樣雖然在一個公司混不起來,但是在跳槽的時候過面試的能力還是可以的,所以也能通過一年一跳槽來漲薪。但是想在一個公司做出成績,還是選A的好。

這個題目最關鍵,明白了這個題目,後邊的問題就迎刃而解了。

題目二(排序題)

2、以下人員,對數據分析項目品質的話語權為:

A、業務部門領導

B、數據部門領導

C、業務部門員工

D、數據部門員工(本人)

如果問題一吃透了,這個題毫無難度,答案是A≥B≥C≥≥D。領導意見大於員工意見,如果業務部門領導首肯,數據部門領導就直接應聲附和了。如果業務部門領導不發聲,那就看數據部門領導是不是認可。本人的:我覺得我做的很牛逼,毫無意義,切記切記。

請注意,有時會有業務領導和數據領導態度不一致的情況,這時候以自己直接領導的態度為準,外部門稍後考慮。在大部分企業,直接領導是決定自己績效評分的那個,所以一定不能得罪。

題目三(排序題)

3、請對以下五種項目成果,按品質高低排序:

A、可視化的數據產品

B、每月定期輸出的數據模型

C、部門級以上會議的彙報ppt

D、無群體彙報的ppt

E、Excel數據表

F、無固定格式的數字

G、寫sql跑完數口頭告訴業務

這個題完全解釋需要一整篇文章,但同學們可以用望文生義的辦法,直接作出回答,答案是:A=B≥C≥D=E≥F≥≥G。數據分析的成果很容易被人當夜壺:用的時候很爽,用完了就忘了。平時還嫌你臟:你看我不就是要個數字嗎!還要跑那麼久!所以做數據分析項目,要爭取輸出定期使用的、產品化的、大家必須看的成果。最好的就是上一套BI,或者業務的用戶跟進名單用模型進行優化排序,讓大家不得不用。不濟的話,寫個ppt,但爭取在會議上公開講。最差最差就是跑了一堆臨時需求單,寫了2000行sql結果連個正式輸出物都沒有,年底寫績效報告都不知道寫啥。

題目四(單選題)

4、今天是11月11日中午12點,你的領導說,下班前給一個預計,預測一下雙十一我們業績能去到多少,你怎麼做?

A、立馬回去建模,時間序列、XGboost搞起

B、回去找運營要推廣費用使用情況,算個投入產出比來拍

C、回去看下上午數據,根據去年同期拍一個

這個題非常有迷惑性。特別是剛看完上一題,很多同學會慣性選A。這個題的題眼不是「預測」而是「中午12點到下班」。數據分析可以建模、可以做BI、可以做可視化,但是統統需要時間,而很多情況下,業務不等人,必須快速給出結果。這時候要優先選簡單直接的辦法,並結合數據提示風險。所以建模要學、統計學要學、如何快速合理的拍腦袋也要學。很多新人夯吃夯吃搞了一堆模型,結果被領導三言兩語推翻,還批鬥:「你都幹嘛去了這麼磨嘰」,就是這個原因。這個題選C,最好是10分鐘內給答案,領導指示:「這個問題非常重要,要用更複雜、更科學的方法」以後,再考慮AB。

題目五(多選題)

5、數據分析的工作成本由什麼構成?

A、資料庫成本

B、電腦成本

C、開發軟體成本

D、BI產品成本

E、數據採集品質

F、數據清洗品質

G、程式設計師工作時間

這個題也非常非常有迷惑性,如果在陳老師問之前,很多人都壓根沒想過:「做數據分析還有成本啊??!!」「這玩意不是一個飽讀《機器學習》《統計學》《21天精通python》的人敲敲鍵盤就搞掂的嗎??!!」

答,數據分析肯定有成本,而且最大的成本是數據品質,好數據才有好分析,垃圾數據垃圾分析。特別是數據採集,業務流程漏洞百出,業務管理不規範,埋點不做好就上線,基礎數據髒亂差,分析個屁。

至於什麼軟體成本,電腦成本都是毛毛雨。數據品質是涉及公司根本的問題。所以這一題的答案是ABCDEFG,如果排序的話,是E≥≥F≥G≥A≥D≥B≥C

等等!很多同學會問。為啥有G,而且排序還那麼高?!因為數據分析師的工作時間是非常寶貴的。

學校里、論文里、專利里那麼巨複雜的模型都是耗費無數時間燒出來的。普通企業的數據分析師每日應付各種取數、彙報、excel都已經折騰半死了,連找對象都不一定有時間,還整高精尖模型呢。

所以必須考慮工作時間,日常需求要排優先順序,集中精力做有產出的東西,那些亂七八糟「我要個數」讓他排隊去。

以上,做完5個題目,理解了題目思路,如何做優秀的數據分析項目就呼之欲出了:

如何做優秀的數據分析項目

1、正式立項,把業務痛點作為項目目標

2、考慮時間緊迫性和數據品質,設計恰當方法

3、輸出定期使用的、產品化的、大家必須看的成果

4、需求排序,給自己留出時間干高品質工作

5、用快捷分析方法應付簡單需求,留出精力做複雜需求

為了取得好的教學效果,這裡用了5個最常犯錯的題目。