如何保存机器学习模型

2025年06月20日 | 阅读 5 分钟

在使用 scikit learn 机器学习库时，有必要保存和恢复模型以便再次使用，与其他模型进行比较或使用新数据测试模型。保存数据的过程称为 序列化，而恢复数据的过程称为 反序列化。我们还需要处理不同类型和大小的数据。虽然有些数据集可以快速训练（例如，花费的时间较少），但大型数据集（大于 1GB）可能需要很长时间才能训练，即使在具有 GPU 的本地计算机上也是如此。为避免浪费时间和避免损失，请保存训练好的模型以便将来项目使用。

从 scikit-learn 保存模型的两种方法

1. Pickle 字符串

pickle 模块实现了一个高效而基础的算法，用于序列化或反序列化 Python 对象结构。

pickle 模型提供以下功能

dump： 对于 序列化 对象层次结构，我们可以使用 dump() 函数。
load： 对于 反序列化 数据流，我们可以使用 loads() 函数。

示例： 让我们将 K 近邻 应用于 iris 数据集，然后保存模型。

代码

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn. neighbours import KNeighborsClassifier
import pickle as pkl

# Loading the dataset
iris = load_iris()
X = iris.data
y = iris.target

# Splitting the dataset into train and test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=2020)

# Importing the KNeighborsClassifier model
knn = KNeighborsClassifier(n_neighbors=4)

# Training the model
knn.fit(X_train, y_train)

# Saving the trained model as a pickle string
saved_model1 = pkl.dumps(knn)

# Loading the pickled model
knn_from_pkl = pkl.loads(saved_model1)

# Using the loaded pickled model for making predictions
predictions = knn_from_pkl.predict(X_test)
print(predictions)

输出

[1 2 0 2 1 1 2 1 0 0 0 2 1 1 0 1 1 0 0 1 2 0 1 0 2 1 1 2 1 0 2 2 0 0 2 0 2 2 2 1 2 2 1 0 0 1 0 0 1 0 0 1 2 1 2 2 1 0 2 1 0 0 1 0 2 2 0 1 2 1 0 1 2 0 1 0 1 1 1 0 1 2 2 2 1 1 1 2 1 0 0 1 1 2 0 0 0 1 0 2 1 0 0 1 2 0 0 2 2 2 1 2 1 2 0 2 2 0 2 1 0 0 2 0 2 2 1 1 2 1 1 2 0 1 2 2 0 2 2 1 1 2 0 1 0 1 1 0 2 0 1 1 2 1 2 2 0 2 2 1 2 1 1 2 1 2 0 2 0 1 0 2 2 1 1 2 2 2 0 2 0 0 0 0 0 0 0 2 0 2 2 0 1 1 1 0 0 0 1 2 2 2 1 2 2 0 1 0 1 0 2 1 2 0 1 2 2 0 0 1 1 0 1 1 0 0 1 0 1 2 0 2 0 0 1 2 2 1 0 2 1]
``

说明

在所示程序中，首先加载 iris 数据集，然后将其划分为训练集和测试集。然后导入 KNeighborsClassifier 系统并使用数据的训练集进行训练。我们使用 pickle.dumps() 方法将训练好的模型存储为 pickle 字符串。随后，使用 pickle.loads()，我们可以加载 pickle 好的模型，并使用该加载的模型进行预测。

2. 使用 joblib 将模型 pickle 为文件

Joblib 取代了 pickle，因为它在处理具有大型 numpy 数组的对象时速度更快。这些函数只接受类文件对象而不是文件名。

使用 joblib 将 pickle 模型作为文件提供以下功能

dump： 用于序列化对象层次结构。

load： 用于反序列化数据流。

示例： 使用 joblib 保存到 pickle 文件

代码

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn. neighbors import KNeighborsClassifier
import joblib

# Load the iris dataset
iris = load_iris()
X = iris.data
y = iris.target

# Split the dataset into train and test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=2020)

# Import the KNeighborsClassifier model
knn = KNeighborsClassifier(n_neighbors=4)

# Train the model
knn.fit(X_train, y_train)

# Save the model as a pickled file
joblib.dump(knn, 'model.pkl')

# Load the model from the file
knn_from_joblib = joblib.load('model.pkl')

# Use the loaded pickled model for making predictions
predictions = knn_from_joblib.predict(X_test)
print(predictions)

输出

[1 2 0 2 1 1 2 1 0 0 0 2 1 1 0 1 1 0 0 1 2 0 1 0 2 1 1 2 1 0 2 2 0 0 2 0 2 2 2 1 2 2 1 0 0 1 0 0 1 0 0 1 2 1 2 2 1 0 2 1 0 0 1 0 2 2 0 1 2 1 0 1 2 0 1 0 1 1 1 0 1 2 2 2 1 1 1 2 1 0 0 1 1 2 0 0 0 1 0 2 1 0 0 1 2 0 0 2 2 2 1 2 1 2 0 2 2 0 2 1 0 0 2 0 2 2 1 1 2 1 1 2 0 1 2 2 0 2 2 1 1 2 0 1 0 1 1 0 2 0 1 1 2 1 2 2 0 2 2 1 2 1 1 2 1 2 0 2 0 1 0 2 2 1 1 2 2 2 0 2 0 0 0 0 0 0 0 2 0 2 2 0 1 1 1 0 0 0 1 2 2 2 1 2 2 0 1 0 1 0 2 1 2 0 1 2 2 0 0 1 1 0 1 1 0 0 1 0 1 2 0 2 0 0 1 2 2 1 0 2 1]

说明

在这种情况下，我们的操作与之前相同，不是简单地使用 Pickle 来存储和加载模型，而是使用 joblib。我们使用 joblib.dump() 函数来存储模型，该函数会创建一个 pickle 文件。接下来，我们可以使用 joblib.load() 从文件中加载模型，并使用获得的模型预测结果。

结论

通过使用 Pickle 或 joblib，您可以保存机器学习模型以供将来使用并节省时间，而无需重新训练它们。在序列化对象方面，Pickle 是一个灵活的选择，而 joblib 在处理大型 numpy 数组时表现出色。

下一主题使用智能手机进行人体活动识别

如何保存机器学习模型

从 scikit-learn 保存模型的两种方法

1. Pickle 字符串

2. 使用 joblib 将模型 pickle 为文件

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

如何保存机器学习模型

从 scikit-learn 保存模型的两种方法

1. Pickle 字符串

2. 使用 joblib 将模型 pickle 为文件

结论

相关帖子

连续机器学习

从头开始的多类别逻辑回归

机器学习中的 5 种概率训练数据抽样方法

幂、积和商法则

Bahdanau 注意力

在 Python 中创建 AdaBoost 回归模型

机器学习中的持续学习

萤火虫算法

知识图谱如何解决机器学习问题

微分和积分微积分

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器