数据科学中必须了解的Python基础库

本文将介绍一些基础的数据科学库。

核心库

Python有三个核心数据科学库：

Numpy

Scipy

Matplotlib

第二代库

Scikit-learn

是Python中的机器学习库，专注于“核心”机器学习，包括结构化数据的回归、分类和聚类。

Pandas

为了简化Python中的数据分析。Pandas让加载结构化数据、计算统计数据、切割数据变得非常容易。

Seaborn

可创建出漂亮的可视化数据。Seaborn是基于Matplotlib创建的，因此仍然可以使用Matplotlib功能增加或编辑Seaborn图表。

深度学习

Pytorch

正逐渐成为研究和实现大量功能的标准深度学习库，使其在数据生成用例中愈加完善。

Keras

第一个真正让深度学习变得触手可及的数据科学库。同时还支持多个后端，即Tensorflow和CNTK。

Tensorflow

是由谷歌创建的，为深度学习的生产提供了很强大的支持。

统计

statsmodels

对统计模型和测试提供了很好的支持，甚至还支持很多R语法。

PyMC3

让定义的概率模型变得非常直观，并给许多先进的模型提供许多支持。