數據團隊思考:數據人的通用技能要求
- 2019 年 10 月 8 日
- 筆記
作者:木東居士
來源:木東居士
0x00 前言
最近經常遇到有朋友問下面這類問題,結合最近的一些思考,本篇聊一下,數據人該具備哪些通用的技能。
- 「數據開發到底用不用學演算法?」
- 「Excel 有必要學嗎?」
- 「數據產品經理需要了解技術嗎?」
技能分為兩部分:工具和知識。工具包括Excel、Sql 和 Python,知識包括大數據、統計學和機器學習相關知識。
0x01 Excel
掌握指數:5顆星
掌握人群:所有數據人
Excel 是每個數據人都應該掌握的一項技能,不管是研發還是產品,Excel 應該是必備的一項基本技能。不要以為只有搞大數據、深度學習這種才是有技術含量的工作,很多時候 Excel 能提供的功能,現在大部分大數據系統差的還遠。特別是Excel的透視表和各種圖,基本是數據分析必備。
只是從處理的數據量上來講,一般配置的辦公機,Excel 只能處理幾十萬行的數據。相對來講是小數據量。
0x02 Sql
掌握指數:4.5顆星
掌握人群:所有數據人
從研發崗來講,數據開發、數據倉庫、數據分析都應該具備 Sql 能力,這點不用多做解釋。那麼數據產品和數據運營是否應該掌握 Sql 呢?答案是肯定的!
從使用數據的角度來講,Sql 能力意味著產品和運營能夠快速自己提取自己想要的數據,而不是全部都要等研發的排期。你的核心競爭力並不是 Sql ,但是 Sql 應該能幫你更有效的驗證想法。居士身邊大部分數據產品和數據運營都是或多或少會一些 Sql 的,至少這個比例在逐漸增加。
從設計數據系統的角度來講,數據產品也應該掌握 Sql,如果一點 Sql 不懂,那麼如何設計自助數據分析平台?如何設計更多的數據系統?
0x03 Python
掌握指數:4顆星
掌握人群:數據開發、數據倉庫、數據分析、數據挖掘
Python,基本上是偏研發向崗位必備技能了,重要性毋庸置疑。這裡只簡單聊一下 Python 和 R 的選擇。首先,居士支援 Python,這裡無意評價哪個語言是好的,只想說明:
- 互聯網公司用 Python 的更多,用 Python 工作更容易找到
- Python 可做的事情更多,除了數據分析,爬蟲、腳本之類的任務都可以用 Python 完成,整個生態也很成熟
- 目前最流行的機器學習和深度學習相關的開源庫都以 Python 為核心載體:sklearn、tensoflow!
至於說數據產品和運營是否需要,居士認為,簡單了解就行,不是核心技能要求。
0x04 大數據
掌握指數:4.5顆星
掌握人群:所有數據人
大數據時代,所有數據人都應該具備一定的大數據知識!因為大數據相關技術已經侵入了互聯網行業的方方面面,傳統行業也都逐漸往大數據靠攏。
不論是研發、產品亦或者運營,都應該對大數據有一些的基本的認知,比如統計學,以前可能是幾萬行的小數據做統計,那麼當數據上億甚至是百億千億之後,統計學的思路可能依舊不變,但是想要處理這些數據,就必須對大數據有所了解,要了解該怎麼使用大數據的工具!
數據產品和運營亦是類似,只有了解大數據相關的一些知識,才能更好地和數據團隊的各個工種站在同樣的知識理解層面上對話。
注意:讓產品來了解技術,並不是讓產品自己做技術,而是了解一定的技術後,能夠更順暢地和研發做溝通。良好的溝通有時候能決定你是否能夠順利地開展項目。
0x05 統計學
掌握指數:4顆星掌握人群:所有數據人
統計學,玩數據的同學都應該了解一定的統計學知識!一般來講,大部分數據分析都應該具備統計學的知識。那麼問題來了?數據倉庫是否也需要了解統計學?
居士是這樣思考這個問題的,假設你是一名數據倉庫同學,你的一個主要服務對象可能就是數據分析,那麼,你是否了解你的使用方是如何使用你的數據的?如果你都不知道使用方是如何使用你的勞動成果的,那麼,你提供的數據會很好用嗎?
自省一下,工作前兩年,居士做的很多數據表的設計,在現在看來基本沒法用!因為當時根本不知道使用方是如何用自己的表,基本處於自嗨狀態。
0x06 機器學習
掌握指數:4顆星
掌握人群:所有數據人
這裡引用一部分 Japson在《ML/DL科普向:從Sklearn到TensorFlow》中提到的一句話:
再結合居士的觀點:統計學相關知識、人工智慧相關知識已經逐漸地成為了我們必備的基礎技能。很多時候我們要跳出自己的眼界,從更高的角度來說,這些知識有助於我們更好的了解自己的數據,更加了解業務,從而提高自己的競爭力,打破自己的能力邊界,來進行「錯位競爭」。
整體的思路就是,數據開發、數據倉庫亦或者是數據產品,該不該去學習機器學習?居士想表達是,該學!為什麼?
- 你學習了新的知識,那麼你的眼界將不再局限於自己技術的一個點上
- 你學了機器學習,那麼你和機器學習出身的人一起比,你不具備優勢,但是和同職業的人比起來,你就很容易脫穎而出!
- 學了機器學習,能更好地為機器學習的同時提供更好的服務,自己的職業生涯也有更多的選擇