技能提升！推薦14個優質數據科學項目

2021 年 5 月 10 日
AI

程序員必備寶藏庫：//github.com/Jackpopc/CS-Books-Store

現代社會，數據量在急劇的增加，生活處處都充滿着數據，購物、交通、就醫….

因此，無論你是從事金融、互聯網、人事、財務等不同的工作崗位，都會和經常和各種數據打交道。

通過數據，能夠挖掘出更深、更有價值的信息，而不是浮於表面。

本文就來給大家介紹14個非常值得關注的數據科學項目，它們主要可以分為如下3類：

可視化項目
探索性數據分析（EDA）項目
預測建模

下面，就開始本文的介紹。

可視化項目

在上述列出的3類項目中，或許最為簡單的就是數據可視化項目。

以Python為例，目前有很多知名、好用的數據可視化工具包，通過這些工具包可以很容易實現數據的可視化。

以下是三個有趣的數據集，可以用於練習你的數據可視化能力。

冠狀病毒可視化

難度：容易

數據集鏈接[1]

了解如何使用Plotly構建動態可視化，以展示冠狀病毒如何像上述之一那樣在全球範圍內傳播！Plotly是一個了不起的庫，它使數據可視化變得動態，有吸引力且簡單。

澳大利亞野火可視化

難度：容易

數據集鏈接[2]

2019-2020年的叢林大火季節，也稱為黑色夏天，由2019年6月開始的幾場極端野火組成。

據維基百科稱，大火燒毀了約1,860萬公頃，燒毀了5,900多座建築物。

這是一個有趣的項目，利用Plotly或Matplotlib利用數據可視化技能來顯示野火的規模和地理影響。

地表溫度可視化

難度：容易-中等

數據集鏈接[3]

是否對地標溫度的變化有所了解？

創建一些數據可視化效果，以顯示地球表面溫度如何隨時間變化。

探索性數據分析（EDA）項目

探索性數據分析（EDA），也稱為數據探索，是數據分析過程中的一個步驟，其中使用了多種技術來更好地理解所使用的數據集。

紐約Airbnb數據探索

難度：中等

數據集鏈接[4]

自2008年以來，旅客和房東已使用Airbnb擴大旅行可能性，並提出更多個性化的體驗的方式。

該數據集包含有關2019年在紐約上市的信息以及其地理信息，價格，評論數量等。

你可以嘗試回答的一些問題如下：

哪些主機最忙，為什麼？
哪些區域的流量超過其他區域，為什麼會這樣？
價格，評論數和給定列表的預訂天數之間是否存在任何關係？

與員工流失、績效表現關係最重因素

難度：容易

數據集鏈接[5]

IBM創建了一個綜合數據集，可以使用它來了解各種因素如何影響員工的流失和滿意度。

其中一些變量包括教育程度，工作投入，績效評估和工作與生活的平衡。

探索此數據集，查看是否有任何確實影響員工滿意度的重要變量。

更進一步，看看是否可以將變量從最重要到最不重要進行排名。

世界大學排名

難度：容易

數據集鏈接[6]

你認為哪個國家擁有世界上最好的大學嗎？

成為「最佳」大學的意味着什麼？

該數據集包含三個全球大學排名，使用此數據，查看是否可以回答以下問題：

有哪些國家的頂尖大學？
決定一個人的世界排名的主要因素是什麼？

酒精與學校

難度：容易

數據集鏈接[7]

飲酒會影響學生的成績嗎？

這項數據是通過對中學數學和葡萄牙語課程的學生進行的一項調查獲得的。

它包含幾個變量，例如酒精消耗，家庭人數，參與課外活動。

利用這一點，探索學校成績與各種因素之間的關係。

Pokemon數據探索

難度：容易

數據集鏈接[8]

這是一個數據集，其中包含Pokemon遊戲中有關所有七代人的所有802 Pokemon的信息。

你可以嘗試回答以下幾個問題！

哪一代人的口袋妖怪最強？哪個最弱？
哪種神奇寶貝最強？哪種最弱？
是否有可能建立一個分類器來識別傳奇的神奇寶貝？
身體特徵與力量狀態（進攻，防守，速度等）之間是否有關聯？

探索預期壽命相關的因素

難度：容易

數據集鏈接[9]

世衛組織創建了一段時間內所有國家健康狀況的數據集，其中包括預期壽命，成人死亡率等方面的統計數據。

使用此數據集，探索各種變量之間的關係。

對預期壽命的最大影響是什麼？

創建該數據集是為了回答以下問題：

最初選擇的各種預測因素是否會真正影響預期壽命？實際影響預期壽命的預測變量是什麼？
預期壽命值低於（<65）的國家是否應該增加其醫療保健支出以改善其平均壽命？
嬰兒和成人死亡率如何影響預期壽命？
預期壽命與飲食習慣，生活方式，運動，吸煙，飲酒等有正相關還是負相關？
學校教育對人類壽命有何影響？
預期壽命與飲酒有正面還是負面的關係？
人口稠密的國家會不會有較低的預期壽命？
免疫覆蓋率對預期壽命有何影響？

預測建模

如果說數據可視化和數據探索是對現有積累的數據進行分析和挖掘，那麼預測建模就是通過當下數據，去預測未來的趨勢，它在很多領域有着廣泛的應用。

能源消耗的時間序列預測

難度：中等-困難

數據集鏈接鏈接[10]

該數據集由PJM網站上的功耗數據組成，PJM是美國的區域傳輸組織。

使用此數據集，查看是否可以構建時間序列模型來預測能耗。

除此之外，請嘗試一下，是否可以找到一天中各個小時的趨勢，假日用電量以及長期趨勢！

貸款預測

難度：容易

數據集鏈接[11]

該數據集來自Analytics Vidhya，包含615行和13列有關已批准和尚未批准的過去貸款的信息。

嘗試，是否可以創建一個模型來預測貸款是否會獲得批准。

二手車價格估算

難度：中等

數據集鏈接[12]

Craigslist是全球待售二手車的最大集合。

該數據集由Craigslist的抓取數據組成，每隔幾個月更新一次。

使用此數據集，查看是否可以創建一個數據集來預測汽車列表是高價還是低價。

檢測信用卡欺詐

難度：中等-困難

數據集鏈接[13]

該數據集顯示了兩天內發生的交易，其中284,807筆交易中有492筆欺詐。

數據集高度不平衡，陽性類別（欺詐）占所有交易的0.172％。

學習如何使用不平衡的數據集並建立信用卡欺詐檢測模型。

皮膚癌圖像檢測

難度：困難

數據集鏈接[14]

擁有超過10,000張圖像，看看你是否可以構建神經網絡來檢測皮膚癌。

這是本文介紹14個項目中最困難的項目，需要廣泛的神經網絡和圖像識別知識。

參考資料

[1] 鏈接: //www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

[2] 鏈接: //www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland

[3] 鏈接: //www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels

[4] 鏈接: //www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

[5] 鏈接: //www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

[6] 鏈接: //www.kaggle.com/mylesoneill/world-university-rankings

[7] 鏈接: //www.kaggle.com/uciml/student-alcohol-consumption

[8] 鏈接: //www.kaggle.com/rounakbanik/pokemon

[9] 鏈接: //www.kaggle.com/kumarajarshi/life-expectancy-who

[10] 鏈接: //www.kaggle.com/robikscube/hourly-energy-consumption

[11] 鏈接: //datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

[12] 鏈接: //www.kaggle.com/austinreese/craigslist-carstrucks-data

[13] 鏈接: //www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets

[14] 鏈接: //www.kaggle.com/kmader/skin-cancer-mnist-ham10000