用于机器学习的最佳 Python 库

2025年03月17日 | 阅读 9 分钟

机器学习是编程计算机的科学,通过这种科学,计算机可以从不同类型的数据中学习。根据 Arthur Samuel 的机器学习定义 - “一个让计算机在没有明确编程的情况下也能学习的研究领域”。机器学习的概念主要用于解决各种生活中的问题。

Best Python libraries for Machine Learning

在过去,用户通过手动编写所有算法并使用数学和统计公式来执行机器学习任务。

与 Python 库、框架和模块相比,这个过程非常耗时、效率低下且令人厌烦。但在当今世界,用户可以使用 Python 语言,这是机器学习中最流行、最高产的语言。Python 因其庞大的库集合而取代了许多语言,它使工作更容易、更简单。

在本教程中,我们将讨论用于机器学习的最佳 Python 库。

  • NumPy
  • SciPy
  • Scikit-learn
  • Theano
  • TensorFlow
  • Keras
  • PyTorch
  • Pandas
  • Matplotlib

NumPy

Best Python libraries for Machine Learning

NumPy 是 Python 中最流行的库。该库用于通过大量高级数学函数和公式处理大型多维数组和矩阵。它主要用于机器学习基础科学的计算。它广泛用于线性代数、傅里叶变换和随机数能力。还有其他高端库,如 TensorFlow,它们将 NumPy 用作内部功能来操作张量。

示例

输出

Inner product of vectors: 222 

Matrix and Vector product: [ 68 156] 

Matrix and matrix product: [[22 34]
                                                   [46 74]]

SciPy

Best Python libraries for Machine Learning

SciPy 是机器学习开发者中一个受欢迎的库,因为它包含许多用于执行优化、线性代数、积分和统计的模块。SciPy 库与 SciPy stack 不同,因为 SciPy 库是构成 SciPy stack 的核心包之一。SciPy 库用于图像处理任务。

示例 1

输出

r (K, domain_1, 1))
Output:
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]
 [30 31 32 33 34]
 [35 36 37 38 39]
 [40 41 42 43 44]] KK [[ 0.  1.  2.  3.  0.]
 [ 5.  6.  7.  8.  3.]
 [10. 11. 12. 13.  8.]
 [15. 16. 17. 18. 13.]
 [20. 21. 22. 23. 18.]
 [25. 26. 27. 28. 23.]
 [30. 31. 32. 33. 28.]
 [35. 36. 37. 38. 33.]
 [ 0. 35. 36. 37. 38.]]

示例 2

输出

Best Python libraries for Machine Learning

Scikit-learn

Best Python libraries for Machine Learning

Scikit-learn 是一个 Python 库,用于经典的机器学习算法。它建立在两个基本的 Python 库 NumPy 和 SciPy 的顶部。Scikit-learn 在机器学习开发者中很受欢迎,因为它支持监督和无监督学习算法。该库还可以用于数据分析和数据挖掘过程。

示例

输出

DecisionTreeClassifier()
              precision    recall f1-score   support

           0       1.00      1.00      1.00        50
           1       1.00      1.00      1.00        50
           2       1.00      1.00      1.00        50

    accuracy                           1.00       150
   macro avg       1.00      1.00      1.00       150
weighted avg       1.00      1.00      1.00       150

[[50  0  0]
 [ 0 50  0]
 [ 0  0 50]]

Theano

Best Python libraries for Machine Learning

Theano 是一个著名的 Python 库,用于定义、评估和优化数学表达式,它还高效地涉及多维数组。

它通过优化 CPU 和 GPU 的利用率来实现。由于机器学习本质上是关于数学和统计的,Theano 使使用者能够轻松地执行数学运算。

它广泛用于单元测试和自我验证,以检测和诊断各种类型的错误。Theano 是一个功能强大的库,可用于大规模计算密集型的科学项目。它是一个简单易用的库,个人可以将其用于自己的项目。

示例

输出

array([[0.5, 0.71135838],
       [0.26594342, 0.11420192]])

TensorFlow

Best Python libraries for Machine Learning

TensorFlow 是一个 Python 的开源库,用于高性能数值计算。它是一个由 Google 的 Brain 团队开发的流行库。TensorFlow 是一个涉及定义和执行涉及张量的计算的框架。TensorFlow 可用于训练和运行深度神经网络,这些网络可用于开发各种人工智能应用。

示例

输出

[ 2 12 30 56]

Keras

Best Python libraries for Machine Learning

Keras 是一个高级神经网络 API,能够运行在 TensorFlow、CNTK 和 Theano 库之上。它是机器学习开发者中一个非常著名的 Python 库。它可以在 CPU 和 GPU 上无缝运行。它使机器学习初学者和设计神经网络变得非常简单。它还用于快速原型设计。

示例

输出

x_train shape: (60000, 28, 28, 1)
60000 Training samples
10000 Testing samples
Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
conv2d (Conv2D)              (None, 26, 26, 32)        320       
_________________________________________________________________
max_pooling2d (MaxPooling2D) (None, 13, 13, 32)        0         
_________________________________________________________________
conv2d_1 (Conv2D)            (None, 11, 11, 64)        18496     
_________________________________________________________________
max_pooling2d_1 (MaxPooling2 (None, 5, 5, 64)          0         
_________________________________________________________________
flatten (Flatten)            (None, 1600)              0         
_________________________________________________________________
dropout (Dropout)            (None, 1600)              0         
_________________________________________________________________
dense (Dense)                (None, 10)                16010     
=================================================================
Total params: 34,826
Trainable params: 34,826
Non-trainable params: 0
_________________________________________________________________

PyTorch

Best Python libraries for Machine Learning

PyTorch 也是一个基于 Torch 的开源 Python 库,用于机器学习,Torch 用 C 语言实现并用于机器学习。它拥有在计算机视觉、自然语言处理 (NLP) 和许多其他机器学习程序方面得到支持的众多工具和库。该库还允许用户执行带有 GPU 加速的张量计算任务。

示例

输出

0 35089116.0
1 33087792.0
2 42227192.0
3 56113208.0
4 61125684.0
5 45541204.0
6 21011108.0
7 6972017.0
8 2523046.5
9 1342124.5
10 950067.5625
11 753290.25
12 620475.875
13 519006.71875
14 437975.9375
15 372063.125
16 317840.8125
17 272874.46875
18 235348.421875
.
.
.
497 7.426088268402964e-05
498 7.348413055296987e-05
499 7.258950790856034e-05

Pandas

Best Python libraries for Machine Learning

Pandas 是一个主要用于数据分析的 Python 库。用户在使用数据集进行机器学习训练之前需要对其进行准备。Pandas 使开发人员的工作更加轻松,因为它专门为数据提取而开发。它拥有广泛的工具,用于详细分析数据,并提供高级数据结构。

示例

输出

    Countries      capital             Currency  population
0      Bhutan      Thimphu             Ngultrum       20.40
1  Cape Verde        Praia  Cape Verdean escudo      143.50
2        Chad    N'Djamena            CFA Franc       12.52
3     Estonia      Tallinn  Estonia Kroon; Euro      135.70
4      Guinea      Conakry        Guinean franc       52.98
5       Kenya      Nairobi       Kenya shilling       76.21
6       Libya      Tripoli         Libyan dinar       34.28
7      Mexico  Mexico City         Mexican peso       54.32

Matplotlib

Best Python libraries for Machine Learning

Matplotlib 是一个用于数据可视化的 Python 库。当开发者想要可视化数据及其模式时,他们会使用它。它是一个 2D 绘图库,用于创建 2D 图形和图表。

它有一个 pyplot 模块,用于绘制图形,它提供了不同的功能来控制线型、字体属性、轴格式化等。Matplotlib 提供不同类型的图形和图表,如直方图、误差图、条形图等。

示例 1

输出

Best Python libraries for Machine Learning

示例 2

输出

Best Python libraries for Machine Learning

结论

在本教程中,我们讨论了用于执行机器学习任务的各种 Python 库。我们还展示了每个库的各种示例。