技能提升！推荐14个优质数据科学项目

2021 年 5 月 10 日
AI

程序员必备宝藏库：//github.com/Jackpopc/CS-Books-Store

现代社会，数据量在急剧的增加，生活处处都充满着数据，购物、交通、就医….

因此，无论你是从事金融、互联网、人事、财务等不同的工作岗位，都会和经常和各种数据打交道。

通过数据，能够挖掘出更深、更有价值的信息，而不是浮于表面。

本文就来给大家介绍14个非常值得关注的数据科学项目，它们主要可以分为如下3类：

可视化项目
探索性数据分析（EDA）项目
预测建模

下面，就开始本文的介绍。

可视化项目

在上述列出的3类项目中，或许最为简单的就是数据可视化项目。

以Python为例，目前有很多知名、好用的数据可视化工具包，通过这些工具包可以很容易实现数据的可视化。

以下是三个有趣的数据集，可以用于练习你的数据可视化能力。

冠状病毒可视化

难度：容易

数据集链接[1]

了解如何使用Plotly构建动态可视化，以展示冠状病毒如何像上述之一那样在全球范围内传播！Plotly是一个了不起的库，它使数据可视化变得动态，有吸引力且简单。

澳大利亚野火可视化

难度：容易

数据集链接[2]

2019-2020年的丛林大火季节，也称为黑色夏天，由2019年6月开始的几场极端野火组成。

据维基百科称，大火烧毁了约1,860万公顷，烧毁了5,900多座建筑物。

这是一个有趣的项目，利用Plotly或Matplotlib利用数据可视化技能来显示野火的规模和地理影响。

地表温度可视化

难度：容易-中等

数据集链接[3]

是否对地标温度的变化有所了解？

创建一些数据可视化效果，以显示地球表面温度如何随时间变化。

探索性数据分析（EDA）项目

探索性数据分析（EDA），也称为数据探索，是数据分析过程中的一个步骤，其中使用了多种技术来更好地理解所使用的数据集。

纽约Airbnb数据探索

难度：中等

数据集链接[4]

自2008年以来，旅客和房东已使用Airbnb扩大旅行可能性，并提出更多个性化的体验的方式。

该数据集包含有关2019年在纽约上市的信息以及其地理信息，价格，评论数量等。

你可以尝试回答的一些问题如下：

哪些主机最忙，为什么？
哪些区域的流量超过其他区域，为什么会这样？
价格，评论数和给定列表的预订天数之间是否存在任何关系？

与员工流失、绩效表现关系最重因素

难度：容易

数据集链接[5]

IBM创建了一个综合数据集，可以使用它来了解各种因素如何影响员工的流失和满意度。

其中一些变量包括教育程度，工作投入，绩效评估和工作与生活的平衡。

探索此数据集，查看是否有任何确实影响员工满意度的重要变量。

更进一步，看看是否可以将变量从最重要到最不重要进行排名。

世界大学排名

难度：容易

数据集链接[6]

你认为哪个国家拥有世界上最好的大学吗？

成为“最佳”大学的意味着什么？

该数据集包含三个全球大学排名，使用此数据，查看是否可以回答以下问题：

有哪些国家的顶尖大学？
决定一个人的世界排名的主要因素是什么？

酒精与学校

难度：容易

数据集链接[7]

饮酒会影响学生的成绩吗？

这项数据是通过对中学数学和葡萄牙语课程的学生进行的一项调查获得的。

它包含几个变量，例如酒精消耗，家庭人数，参与课外活动。

利用这一点，探索学校成绩与各种因素之间的关系。

Pokemon数据探索

难度：容易

数据集链接[8]

这是一个数据集，其中包含Pokemon游戏中有关所有七代人的所有802 Pokemon的信息。

你可以尝试回答以下几个问题！

哪一代人的口袋妖怪最强？哪个最弱？
哪种神奇宝贝最强？哪种最弱？
是否有可能建立一个分类器来识别传奇的神奇宝贝？
身体特征与力量状态（进攻，防守，速度等）之间是否有关联？

探索预期寿命相关的因素

难度：容易

数据集链接[9]

世卫组织创建了一段时间内所有国家健康状况的数据集，其中包括预期寿命，成人死亡率等方面的统计数据。

使用此数据集，探索各种变量之间的关系。

对预期寿命的最大影响是什么？

创建该数据集是为了回答以下问题：

最初选择的各种预测因素是否会真正影响预期寿命？实际影响预期寿命的预测变量是什么？
预期寿命值低于（<65）的国家是否应该增加其医疗保健支出以改善其平均寿命？
婴儿和成人死亡率如何影响预期寿命？
预期寿命与饮食习惯，生活方式，运动，吸烟，饮酒等有正相关还是负相关？
学校教育对人类寿命有何影响？
预期寿命与饮酒有正面还是负面的关系？
人口稠密的国家会不会有较低的预期寿命？
免疫覆盖率对预期寿命有何影响？

预测建模

如果说数据可视化和数据探索是对现有积累的数据进行分析和挖掘，那么预测建模就是通过当下数据，去预测未来的趋势，它在很多领域有着广泛的应用。

能源消耗的时间序列预测

难度：中等-困难

数据集链接链接[10]

该数据集由PJM网站上的功耗数据组成，PJM是美国的区域传输组织。

使用此数据集，查看是否可以构建时间序列模型来预测能耗。

除此之外，请尝试一下，是否可以找到一天中各个小时的趋势，假日用电量以及长期趋势！

贷款预测

难度：容易

数据集链接[11]

该数据集来自Analytics Vidhya，包含615行和13列有关已批准和尚未批准的过去贷款的信息。

尝试，是否可以创建一个模型来预测贷款是否会获得批准。

二手车价格估算

难度：中等

数据集链接[12]

Craigslist是全球待售二手车的最大集合。

该数据集由Craigslist的抓取数据组成，每隔几个月更新一次。

使用此数据集，查看是否可以创建一个数据集来预测汽车列表是高价还是低价。

检测信用卡欺诈

难度：中等-困难

数据集链接[13]

该数据集显示了两天内发生的交易，其中284,807笔交易中有492笔欺诈。

数据集高度不平衡，阳性类别（欺诈）占所有交易的0.172％。

学习如何使用不平衡的数据集并建立信用卡欺诈检测模型。

皮肤癌图像检测

难度：困难

数据集链接[14]

拥有超过10,000张图像，看看你是否可以构建神经网络来检测皮肤癌。

这是本文介绍14个项目中最困难的项目，需要广泛的神经网络和图像识别知识。

参考资料

[1] 链接: //www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

[2] 链接: //www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland

[3] 链接: //www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels

[4] 链接: //www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

[5] 链接: //www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

[6] 链接: //www.kaggle.com/mylesoneill/world-university-rankings

[7] 链接: //www.kaggle.com/uciml/student-alcohol-consumption

[8] 链接: //www.kaggle.com/rounakbanik/pokemon

[9] 链接: //www.kaggle.com/kumarajarshi/life-expectancy-who

[10] 链接: //www.kaggle.com/robikscube/hourly-energy-consumption

[11] 链接: //datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

[12] 链接: //www.kaggle.com/austinreese/craigslist-carstrucks-data

[13] 链接: //www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets

[14] 链接: //www.kaggle.com/kmader/skin-cancer-mnist-ham10000