2020數據分析崗位報告:數據分析師需要哪些能力?|


最近,我積極的開始找一份數據科學的工作,我沒有任何AI/機器學習的碩士或博士的正規教育背景。我開始學習它完全是出於自己的興趣(不僅僅是因為炒作)。特別當你同時在做一些其他的技術時,這是一個很有挑戰性的選擇。我通過報名參加了許多mooc(大規模在線開放課程)開始了我的旅程,並開始閱讀多個部落格。最初,它沒有什麼意義,最終在閱讀了別人的程式碼並接觸了實時數據集之後。它慢慢開始變得有意義。


當我開始找工作時,又發生了一個有趣的故事。我在印度打開了一個頂級招聘門戶尋找工作,我發現很少有工作與我尋找的相關,但當我打開其中一個,令我驚訝的是,他們提到的要求對我來說是新的。除了傳統的數據分析、機器學習和深度學習之外,一些ETL工具和多種大數據技術作為需要的技能被提到。我認為這是可以的,因為現在每個公司都有自己對數據科學家的定義,並且開放了新的工作。這一次,它顯示需要一些其他技術,如AWS、Azure和Power BI。


記住,所有這些空缺崗位都只標記在Data scientist下。這些職位都有共同的需求,比如機器學習演算法、統計、數據分析、數據清理和深度學習技術。除了這些技能之外,一些公司還希望應聘者具備雲計算(AWS、Azure或GCP)和數據可視化工具(如Tableau、Power BI和SSIS等ETL工具)方面的知識。通常,這些技術更多地與數據分析師/數據工程師的角色有關,但數據科學家的角色仍在不斷發展,並沒有始終保持特定的技能集。

我很理解公司需要應聘者既要適合他們的職位,又要有他們所需要的技術技能。這肯定會為公司節省時間和金錢,而無需再次提供培訓。

所以,在這裡我有一個有趣的想法來理解IT行業對實時數據科學家角色的期望,而不是mooc通常教的內容。

目標:我們將努力找出目前這個行業最需要的技能和趨勢。為此,我們將從招聘門戶獲取數據。

注:這整個分析是為印度市場的數據科學家角色做的。

在本文中,我們將試圖找到幾個重要問題的答案,這些問題是每個數據科學求職者都會想到的。

  1. 公司最需要的技能是什麼?

  2. 在這個行業中最需要的經驗水平是什麼?

  3. 哪些公司在積極提供這個領域的工作?

  4. 哪些地方有更多的空缺職位?

注意:你可以在結論部分找到完整程式碼的鏈接。

1. 網頁抓取

我從印度的頂級招聘門戶網站Naukri.com收集了所有相關的工作資訊,如今幾乎每個求職者和招聘人員都使用這個網站。我使用selenium-python進行網頁抓取,因為傳統的BeautifulSoap方法在這個站點上不太好用。

來自Naukri.com的示例工作列表

免責聲明:網頁抓取純粹用於教育目的。

我們將為每個工作抓取出五個要素:角色、公司名稱、工作經驗、工作地點和關鍵技能。

抓取程式碼:

Z1.png

2. 預處理

在我們深入之前先簡單做一些預處理。

2.1. 處理缺失值

進行基本清理,查找丟失值並刪除它們。

2.2. 處理重複數據

在處理重複數據時,我們需要非常小心,因為一個公司可能會多次發布相同的要求,因為該職位仍在招聘中,或者另一方面,該公司可能正在尋找具有相同要求的全新職位。為了簡單起見,我沒有丟棄任何數據。

2.3. 標記化工作地點和關鍵技能欄

將所有字元串轉換為小寫,以避免冗餘,並對location和skills列進行標記,因為這些列中有多個值。

這是預處理後的樣子。

3. 分析

現在我們已經準備就緒。

3.1. 哪個工作地點提供更多的空缺崗位? 

注:如果你不是來自印度,請隨意跳過這部分。

  1. 如果我們觀察上面的圖,幾乎38%的工作都在 Bengaluru.

  2. 排名前4位的城市 Bengaluru, Mumbai, Hyderabad and Pune 佔據了印度數據科學工作崗位的72%。

  3. 因此,如果你來自這些城市中的任何一個,你得到一份數據科學家的工作的機會可能比其他城市要多。

3.2. 哪些公司在積極招聘?

  1. 分析公司Vidhya educon以近21%的職位排名榜首。

  2. 名單上還有許多諮詢公司。這些諮詢公司通常為他們的客戶進行招聘。

  3. 一般來說,求職門戶的競爭會非常激烈。大多數時候,你的個人資料甚至可能不會被招聘人員看到,因為他們收到了大量的申請。有些情況下,即使只有一個職位空缺,你也得和幾百個申請人競爭。最好了解那些積極招聘的公司,這樣我們就可以直接通過他們的官方網站進行申請,增加獲得面試機會的幾率。

3.3. 什麼是最被需要的工作經驗?

不同經驗水平的工作機會。

  1. 我們可以看到,公司顯然在尋找有經驗的候選人。有5-10年工作經驗的候選人似乎有更多的空缺。這是有道理的,因為數據科學家的工作涉及關鍵的決策技能,而這些技能是隨著經驗而來的。

  2. 2年以上工作經驗的候選人將有相當好的機會。

  3. 這並不意味著新生不能進入,只是有經驗的候選人比新生有更多的空缺。公司通常不會從這些招聘網站上招聘新人,而是直接從校園招聘中招聘。新生總是可以選擇為初創公司工作,以獲得必要的經驗。

3.4. 有哪些角色被需要

這是需要研究的一個重要步驟,因為在前幾個結果之後,招聘門戶通常會開始顯示一些與我們正在搜索的工作無關的其他工作。為了確保我們看到的是正確的角色,讓我們看看前10個經常提到的角色。

  1. 如果我們在上一節中觀察到,有更多的職位空缺需要有更多經驗的人,這就給我們留下了一個基於角色的空缺職位問題。

  2. 大多數空缺職位仍被稱為數據科學家。其次是資深數據科學家和首席數據科學家,以上都需要良好的經驗。

3.5. 公司需要的技能

最後,終於到了你讀這篇文章的重點。

  1. 看起來很複雜對吧,不用擔心,我將在後面的部分分解它。我之所以在以上部分中包含許多技能,是因為數據科學涉及的領域非常廣泛。

  2. 儘管我們能夠在上面的部分中描述一些頂級技能,但它仍然不能滿足本文分析的目的。

讓我們深入了解一下這個趨勢。

3.5.1. 必備技能?

  1. 機器學習是數據科學家最重要的技能,這一點也不奇怪。

  2. 數據挖掘和數據分析是每個數據科學家都必須經歷的關鍵活動。

3. 要成為一名更好的數據科學家,需要強大的統計建模。

4. 各公司都希望對深度學習有很好的了解,因為它提供了最先進的技術來解決一些有趣的實時問題,如NLP和電腦視覺領域。

5. 由於每天記錄的數據量大幅增加,僱主希望應聘者具備大數據技術方面的知識。在實時情況下,我們可能會在巨大的數據集上工作,這些技能肯定會派上用場。

3.5.2. 需要程式語言嗎?

  1. 如果您剛開始學習數據科學,在一開始,您肯定會發現很難選擇正確的程式語言。儘管有許多語言,競爭總是在Python和R本身之間。讓我們看看數據告訴了我們什麼。

2. 業界仍然支援Python,因為它有豐富的庫和R語言。

3. SQL是每個數據科學家的必修課。儘管它不適合作為程式語言來對待,但我還是冒險把它包括在這裡:)。

4. 在python和R之後,似乎對SAS和c++語言有較好對需求。

3.5.3. 選擇深度學習框架?

  1. 由於深度學習的突然興起,許多深度學習框架從Google、Facebook等巨頭進入市場。

2. 業界更喜歡Tensorflow而不是PyTorch。

3. Keras在市場上佔有很好的份額,人們喜歡它是因為它的簡單易用。

4. 雖然有許多其他框架像Caffe,Maxnet,但似乎沒有很多相關但空缺崗位。即使全球市場不是,至少在印度是這樣的。

3.5.4. 哪一種大數據技術更有優勢?

  1. Spark 排位最高,可以使用python版本的spark – Pyspark。

  2. Hadoop與spark幾乎有相同的求職機會,只是略有不同。

  3. Hive也有相當多的空缺崗位。

3.5.5. 哪個雲提供商需要ML?

  1. 訓練這些模型需要大量的計算,這些計算很容易變得非常昂貴。公司正在尋找更便宜的方式來完成工作,這就是雲平台的作用。

  2. AWS位居榜首,其次是Azure。

  3. 各公司正迅速轉向雲計算。在未來的日子裡,這些技術將更有可能在數據科學中發揮重要作用。

3.5.6. 需要數據可視化工具嗎?

  1. 僱主對數據可視化的Tableau表現出了更多的興趣。.

  2. 而微軟的Power BI仍然落後。

結論:

你真的必須要具備這篇文章中提到的所有技能才能得到這份工作嗎?

其實也不是,如果你的基礎很紮實的話,這個列表中有一些工具是在工作中很容易學會的。話雖如此,如果你只是在找工作,那麼在簡歷上寫上這些技能可能會幫助你獲得面試機會。

如果你擅長所有提到的數據科學家的必備技能,那麼最好的方法應該是從參加面試開始,與此同時試圖填補你理解上和學習工具/技術的空缺,這些將會讓你勝過其他候選人。

你可以在我的GitHub上找到完整的程式碼。你可以在Linkedin上和我聯繫。

如果你覺得這有幫助或有任何問題,請在評論中告訴我。

再見。Coding. .快樂!