python数据挖掘需要哪些库和工具？

1、数字

Numpy是Python科学计算的基础包，提供了很多功能:快速高效的多维数组对象ndarray、对数组进行元素级计算和直接数学运算的函数、读写硬盘上基于数组的数据集的工具、线性代数运算、傅立叶变换和随机数生成。NumPy在数据分析中还有一个主要功能，就是作为算法和库之间传递数据的容器。

熊猫

Pandas提供了大量的数据结构和函数，用于快速方便地处理结构化数据。从2010开始，帮助Python成为一个强大高效的数据分析环境。其中，最常用的熊猫对象是DataFrame，这是一种面向列的二维表结构，另一种是Series，这是一种一维标记数组对象。Pandas将Numpy的高性能数组计算功能与电子表格和关系数据库的灵活数据处理功能结合在一起。它还提供了复杂的索引功能，可以更方便地完成重塑、切片和切块、聚合和选择数据子集等操作。

3、matplotlib

Matplotlib是用于绘制图表和其他二维数据可视化的最流行的Python库。它最初是由约翰写的

D.亨特(JDH)成立，目前由一个庞大的开发团队维护。它非常适合创建在出版物中使用的图表。虽然还有其他Python可视化库，但matplotlib是使用最广泛的。

4、脾气暴躁

SciPy是一套致力于解决科学计算中各种标准问题域的软件包。当它与Numpy结合后，就形成了一个相当完整和成熟的计算平台，可以处理很多传统的科学计算问题。

5、sci kit-学习

自2010诞生以来，scikit-learn已经成为Python的通用机器学习工具包。它的子模块包括:分类、回归、聚类、降维、选择、预处理等。scikit-learn与pandas、statsmodels和IPython一起，在Python成为高效的数据科学编程语言的过程中发挥了关键作用。

6、统计模型

Statsmodels是一个统计分析包，它起源于斯坦福大学的一位统计学教授。他设计了多种流行于R语言的回归分析模型。船长西博尔德和约瑟夫

2010，佩克托尔德正式成立statsmodels项目，之后聚集了大量用户和贡献者。与scikit-learn相比，statsmodels包含了经典的统计和计量经济学算法。