小白必看:數據分析5個常見誤區!
- 2020 年 2 月 19 日
- 筆記
數據如今已經體現出巨大的價值——企業通過數據分析來為包括市場支出、員工決策到產品開發等所有事情提供參考性建議,而這也意味着,數據科學家在工作中的價值正變得越來越突出。
隨着人工智能的發展,數據科學家開始越來越受歡迎。與此同時,數據科學家確保自身能夠持續地提升自我價值,以及通曉如何利用數據科學最佳實踐是很重要的。這篇文章中列舉了五個數據科學家可能常犯的誤區,並對如何防止這些失誤的出現給出了一定的建議。

誤區1:專註於電腦,而不是同事

在數據科學初學者之中有一個常見的誤解,即在實際工作中他們的工作主要是編寫技術代碼,而另有他人將向業務相關者展示他們的發現。但事實遠非如此,數據科學家的工作是發現有助於業務增長的信息。
首先,數據科學家必須能夠與業務人員交流,共同探討他們發現的信息如何在更大程度上對業務產生影響;其次,他們必須知道到哪裡尋找這些信息。第二部分是至關重要的:一個整天坐在辦公桌前的數據科學家,可能永遠不會意識到銷售團隊正面臨著客戶流失的問題,或者營銷團隊正在為轉化率的事焦頭爛額。
業務運營中總會存在各種各樣的問題,數據科學家可以幫助解決很多問題。不要只看數據,離開你的辦公桌去了解公司的日常工作,這樣你就能知道如何提供更大的價值。

誤區2:忽略業務領域的大環境

除了定期與業務部門的同事溝通之外,花時間了解你所在行業的大環境也很重要。如果你正在為一家零售公司制定解決方案,花點時間開車去他們的實際地點,觀察他們是如何運作的——銷售人員在做什麼、購物空間的設計、經理的工作內容,等等。
更全面地理解業務環境,對於提供業務洞察和數據科學最佳實踐至關重要。如果你不了解企業是如何運作的,就不可能幫助它更好地運作。數據科學家必須理解數據代表什麼,否則,您將會遇到這樣的情況:根據您的模型,一切都應該完美地工作——但是仍然存在一些現實問題,您只能通過觀察業務的實際情況來了解這些問題。
當您對業務的大環境有了一定的了解之後,就可以找到失效的流程,查看數據,並推測出了什麼問題,在對您的假設進行測試並確認之後,做出相應的改進。

誤區3:只注重理論而忽視實踐

與許多領域一樣,數據科學往往是實踐重於理論。問題是,數據科學的實踐是學不到的,你必須在真實的環境中運行。
在企業中,數據科學家必須經受各種壓力,包括:與其他部門和團隊協調。有時可能會隨着內部優先級的變化而從一個項目跳到另一個項目,或者當您的主要解決方案不能按照建議實現時,需要尋找替代解決方案。
代碼集成的挑戰。有時,您的代碼不能輕鬆地與現有代碼集成,這意味着您必須找到對應解決方案。
預算限制。在實際工作中,每個項目都有預算限制。弄清楚如何在有限的預算下,獲得足夠好的(而不是完美的)解決方案,這是數據科學家有效工作的關鍵部分。
雖然關注最新的文章、博客和前沿技術也很重要,但在這份工作中,有些部分你只能邊做邊學。一個具備高工作效率的數據科學家,應知道如何平衡他們的專業發展。

誤區4:從不問為什麼

要成為更好的數據科學家,只需問一問為什麼。這個問題有助於消除數據科學家和公司其他部門同事之間的溝通障礙。
想像一下,一家零售公司的營銷主管要求建立一個數據模型,該模型能夠顯示有多少消費者產生購買行為的原因是與他們訪問網站的渠道相關的。在創建模型之前,你可以先問問為什麼。是為了了解哪些客戶是最有價值的,這樣他們就能知道從哪裡可以獲得更高的轉化率?是為了幫助銷售團隊優先考慮渠道嗎?他們有辦法衡量新老客戶嗎?他們會將產品收益作為考慮因素嗎?
為了建立一個真正有用的模型,你必須理解你的同事希望用它去解決的問題——當你這樣做的時候,你可能比你最初預想的更容易解決它,這對每個人都有好處。

誤區5、假設您的數據是乾淨的

在許多情況下,數據科學家80%的工作是清理數據——最後20%的工作是運行機器學習或深度學習模型,以獲取數據洞察。
接收數據集時要做的第一步是辨認有多少數據是直接可用的,第二步是確定如何讓獲得一個完全可用的數據集。
數據從來都不是完美的——如果是的話,數據科學家就不會有工作了。我們必須使不完美的數據變得可用,這要求我們理解業務的大環境——您不需要哪些信息?哪些是關鍵任務?
人們很容易陷入一種現代思維模式,即數據是企業中所有意義和價值的來源(尤其是如果你是一名數據科學家)。但如果我們想要繼續為我們工作的公司帶來價值、發揮數據科學的最佳實踐效果,我們必須承認只有當我們的工作是整個商業生態系統中的一部分時,我們的工作才最有價值——這取決於數據科學家本身與生態的協作。
End.
作者:Sri Megha Vujjini
來源:IT168編譯