數據挖掘工程師必備的技能有哪些?
- 2019 年 10 月 10 日
- 筆記
01
編程/統計語言
R,Python,C ++,Java,Matlab,SQL,SAS,shell / awk / sed…
數據挖掘在很大程度上依賴於編程,根據KD Nuggets的研究,R和Python是數據科學中最受歡迎的程式語言。
02
大數據處理框架
Hadoop,Storm,Samza,Spark,Flink
處理框架對系統中的數據進行計算,可以將其分為3類:僅批處理,僅流處理和混合。
03
作業系統:Linux
Linux是一種流行的作業系統,對於操作大型數據集而言,Linux更加穩定和高效。
04
資料庫知識:關係資料庫和非關係資料庫
要管理和處理大型數據集,必須具有關係資料庫的知識,例如SQL或Oracle,或非關係資料庫,其主要類型為:列如Cassandra,HBase;文件:MongoDB,CouchDB;關鍵值:Redis,Dynamo。
05
基本統計知識
概率,概率分布,相關性,回歸,線性代數,隨機過程,相關,回歸,線性代數,隨機過程…
統計的基本知識對於數據挖掘者至關重要,它可以幫助您識別問題,獲得更準確的結論,區分因果關係和相關性以及量化發現結果的確定性。
06
數據結構與演算法
數據結構包括數組,鏈表,堆棧,隊列,樹,哈希表,集合等,而常見的演算法包括排序,搜索,動態編程,遞歸等。
精通數據結構和演算法對於數據挖掘至關重要,它可以在處理大量數據時為您提供更具創造性和效率的演算法解決方案。
07
機器學習/深度學習演算法
機器學習演算法可建立樣本數據的數學模型,以進行預測或決策,而無需進行明確編程即可執行任務。深度學習是更廣泛的機器學習方法家族的一部分。
08
自然語言處理
NLP被廣泛用於分詞,語法和語義分析,自動摘要和文本包含。對於需要處理大量文本的數據挖掘者來說,了解NLP演算法是必不可少的技能。
09
項目經驗
項目經驗是您數據挖掘技能的最省力的證明。
10
溝通與表達技巧
數據挖掘者不僅處理數據,而且還負責向其他人,甚至是非技術受眾,例如營銷團隊,解釋從數據中獲取的結果和見解。您應該能夠以口頭,書面和陳述的方式很好地解釋數據結果,講故事。
