Python中的网格搜索

2025年8月28日 | 阅读 8 分钟

在本教程中，我们将讨论用于超参数调优的网格搜索。我们还将了解网格搜索的工作原理以及如何在优化机器学习 (ML) 方法性能时实现它。

超参数调优对于机器学习 (ML) 模型正常工作至关重要。网格搜索等方法似乎是超参数优化的基本实用工具。

网格搜索方法会考虑一些超参数组合，并选择返回较低误差分数的组合。此方法在只需要优化少量超参数时特别有用。然而，当机器学习模型变得更复杂时，它会被其他加权随机搜索方法所超越。

那么，让我们开始理解网格搜索。

理解网格搜索

网格搜索是一种优化算法，它允许我们从我们提供的参数选项列表中选择最佳参数来优化问题，从而自动化“试错”过程。虽然我们可以将其应用于多个优化问题；然而，它最常用于机器学习，以获得模型提供最佳准确率的参数。

让我们假设模型以以下三种参数作为输入：

隐藏层数量 [2, 4]
每层的神经元数量 [5, 10]
训练轮次 [10, 50]

如果我们想尝试每个参数输入的两个选项（如上面方括号中所示），它会评估不同的组合。例如，一种可能的组合是 [2, 5, 10]。手动找到这样的组合将是一件头疼的事。

现在，假设我们有十个不同的参数作为输入，并且我们希望为每个参数尝试五个可能的值。每次我们想更改参数值、重新执行代码并记录每个参数组合的输出时，这都需要程序员手动输入。

网格搜索自动化了这个过程，因为它接受每个参数的可能值，执行代码以尝试每个可能的组合，输出结果，并输出具有最佳准确率的组合。

安装所需的库

在我们开始在Python 编程语言中实现网格搜索之前，让我们简要讨论一些需要在系统中安装的必要库和框架。

这些库和框架如下：

Python 3
NumPy
Pandas
Keras
Scikit-Learn

它们都非常容易安装。我们可以使用 pip 安装程序来安装这些库，如下所示：

注意：如果在执行任何包时遇到任何问题，请尝试重新安装并参考每个包的官方文档。

现在，让我们开始在 Python 中实现网格搜索。

在 Python 中实现网格搜索

在下一节中，我们将了解如何在实际应用程序中实现网格搜索。我们将只执行代码，并深入讨论网格搜索出现的部分，而不是讨论机器学习和数据预处理部分。

那么，让我们开始吧。

我们将使用 Diet 数据集，其中包含有关不同人群的身高和体重的数据，基于性别、年龄和饮食类型等各种属性。我们可以使用 Pandas 的 read_csv() 函数直接从在线资源导入数据。

但在此之前，我们需要导入所需的包。

文件：mygrid.py

import sys
import pandas as pd
import numpy as np
from sklearn.model_selection import GridSearchCV, KFold
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.wrappers.scikit_learn import KerasClassifier
from keras.optimizers import Adam

说明

在上面的代码片段中，我们导入了项目所需的包和库。也可以保存程序文件并执行它，以检查库和包是否已正确安装和导入。

一旦包成功导入，我们就必须使用以下代码片段来导入数据集并打印其前五行。

文件：mygrid.py

# importing the dataset
mydf = pd.read_csv("Diet_Dataset.csv")

# printing the first five lines of dataset
print(mydf.head())

输出

   Person gender  Age  Height  pre.weight  Diet  weight6weeks
0      25          41     171          60     2          60.0
1      26          32     174         103     2         103.0
2       1      0   22     159          58     1          54.2
3       2      0   46     192          60     1          54.0
4       3      0   55     170          64     1          63.3

说明

在上面的代码片段中，我们使用 pandas 库的 read_csv() 导入了数据集，并将其存储在 mydf 变量中。然后，我们使用 head() 函数和 mydf 变量打印了前五行。

现在，让我们将数据分为特征集和标签集，以便对数据集应用标准缩放。

为此的代码片段如下所示：

文件：mygrid.py

# converting dataframe into numpy array
mydataset = mydf.values

X = mydataset[:, 0:6]
Y = mydataset[:, 6].astype(int)

# Normalizing the data using sklearn StandardScaler
from sklearn.preprocessing import StandardScaler

myscaler = StandardScaler().fit(X)

# Transforming and displaying the training data
X_stdized = myscaler.transform(X)

mydata = pd.DataFrame(X_stdized)

说明

在上面的代码片段中，我们将 pandas 数据框转换为了 NumPy 数组。然后，我们从 sklearn 库导入了 StandardScaler 模块，并使用该函数对数据进行归一化。然后，我们使用 transform() 函数转换并显示了训练数据。

现在，让我们考虑使用以下代码片段来创建一个简单的深度学习模型。

文件：mygrid.py

# defining the function to create model
def create_my_model(learnRate, dropoutRate):
    # Creating model
    mymodel = Sequential()
    mymodel.add(Dense(6, input_dim = 6, kernel_initializer = 'normal', activation = 'relu'))
    mymodel.add(Dropout(dropoutRate))
    mymodel.add(Dense(3, input_dim = 6, kernel_initializer = 'normal', activation = 'relu'))
    mymodel.add(Dropout(dropoutRate))
    mymodel.add(Dense(1, activation = 'sigmoid'))

    # Compiling the model
    my_Adam = Adam(learning_rate = learnRate)
    mymodel.compile(loss = 'binary_crossentropy', optimizer = my_Adam, metrics = ['accuracy'])
    return mymodel

说明

以下代码片段定义了一个名为 create_my_model() 的函数，该函数接受两个参数，即 learnRate 和 dropoutRate。然后，我们使用 Sequential() 函数将模型创建为 mymodel。我们还使用了 add() 以及 Dense() 和 Dropout() 函数。然后，我们使用 compile() 函数编译了模型。

因此，当我们执行代码时，这将导致加载数据集、预处理它并创建机器学习模型。由于我们只对理解网格搜索的工作原理感兴趣，我们没有执行训练/测试拆分，并且我们在完整数据集上拟合了模型。

现在，我们将在下一节中了解网格搜索如何通过优化参数来使程序员的生活更轻松。

不使用网格搜索训练模型

在下面的代码片段中，我们将使用我们凭直觉或随机确定的参数值来创建一个模型，看看我们的模型表现如何。

文件：mygrid.py

# Declaring the values of the parameter
dropoutRate = 0.1
epochs = 1
batchSize = 20
learnRate = 0.001

# Creating the model object by calling the create_my_model function we created above
mymodel = create_my_model(learnRate, dropoutRate)

# Fitting the model onto the training data
mymodel.fit(X_stdized, Y, batch_size = batchSize, epochs = epochs, verbose = 1)

输出

4/4 [==============================] - 41s 14ms/step - loss: 0.9364 - accuracy: 0.0000e+00

说明

在上面的代码片段中，我们分别声明了参数值，即 dropoutRate、epochs、batchSize 和 learnRate。然后，我们通过调用 create_my_model() 函数创建了模型对象。然后，我们将模型拟合到训练数据上。

因此，我们获得的准确率为 0.0000e+00。

使用网格搜索优化超参数

如果我们不使用网格搜索方法，我们可以直接调用上面创建的模型上的 fit() 函数。但是，为了利用网格搜索方法，我们需要向 create_my_model() 函数传递一些参数。此外，我们需要声明一个网格，其中包含要为每个参数尝试的各种选项。让我们分几个部分来完成。

首先，我们将尝试修改 create_my_model() 函数，使其接受来自调用函数的参数，如下所示：

文件：mygrid.py

def create_my_model(learnRate, dropoutRate):
    # Creating the model
    mymodel = Sequential()
    mymodel.add(Dense(6, input_dim = 6, kernel_initializer = 'normal', activation = 'relu'))
    mymodel.add(Dropout(dropoutRate))
    mymodel.add(Dense(3, input_dim = 6, kernel_initializer = 'normal', activation = 'relu'))
    mymodel.add(Dropout(dropoutRate))
    mymodel.add(Dense(1, activation = 'sigmoid'))

    # Compile the model
    myadam = Adam(learning_rate = learnRate)
    mymodel.compile(loss = 'binary_crossentropy', optimizer = myadam, metrics = ['accuracy'])
    return mymodel

# Creating the model object
mymodel = KerasClassifier(build_fn = create_my_model, verbose = 1)

说明

在上面的代码片段中，我们对之前的 create_my_model 函数进行了一些更改，并使用 KerasClassifier 来创建模型对象。

现在，让我们实现网格搜索算法并用数据集对其进行拟合。

文件：mygrid.py

# Defining the arguments that we want to use in Grid Search along
# with the list of values that we want to try out
learnRate = [0.001, 0.02, 0.2]
dropoutRate = [0.0, 0.2, 0.4]
batchSize = [10, 20, 30]
epochs = [1, 5, 10]

# Making a dictionary of the grid search parameters
paramgrid = dict(learnRate = learnRate, dropoutRate = dropoutRate, batch_size = batchSize, epochs = epochs )

# Building and fitting the GridSearchCV
mygrid = GridSearchCV(estimator = mymodel, param_grid = paramgrid, cv = KFold(random_state = None), verbose = 10)

gridresults = mygrid.fit(X_stdized, Y)

# Summarizing the results in a readable format
print("Best: " + gridresults.best_score_ + " using " + gridresults.best_params_)

means = gridresults.cv_results_['mean_test_score']
stds = gridresults.cv_results_['std_test_score']
params = gridresults.cv_results_['params']

for mean, stdev, param in zip(means, stds, params):
    print(mean + "(" + stdev + ")" + " with: " + param)

输出

Best: 0.00347268912077, using {batch_size=10, dropoutRate=0.4, epochs=5, learnRate=0.2}

说明

上面的输出显示了产生最佳准确率的参数组合。

最后，我们可以得出结论，网格搜索在 Python 编程语言中很容易实现，并且为我们节省了大量人工劳动。我们可以列出所有想要调整的参数，声明需要测试的值，执行代码，然后就可以忘记它了。这个过程非常简单方便，需要程序员方面的输入很少。一旦找到了最佳参数组合，我们就可以将其用于最终模型。

下一主题Python 高阶函数

Python中的网格搜索

理解网格搜索

安装所需的库

注意：如果在执行任何包时遇到任何问题，请尝试重新安装并参考每个包的官方文档。

在 Python 中实现网格搜索

不使用网格搜索训练模型

使用网格搜索优化超参数

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Python教程

Python变量和数据类型

Python控制语句

Python数据结构

Python函数

Python模块

Python OOP

Python异常处理

Python文件处理

Python搜索和排序

Python高级主题

Python MySQL

Python MongoDB

Python SQLite

Python MCQ

Python Tkinter (GUI)

Python Web Blocker

Python内置函数

Python字符串函数

Python列表

Python字典

Plotly

相关教程

Python中的网格搜索

理解网格搜索

安装所需的库

注意：如果在执行任何包时遇到任何问题，请尝试重新安装并参考每个包的官方文档。

在 Python 中实现网格搜索

不使用网格搜索训练模型

使用网格搜索优化超参数

相关帖子

命令行参数

如何使用Python中的folium包绘制Google地图

Python正则表达式

Python生成器

Python IDE

Python高阶函数

如何使用GEOPY计算两点之间的距离

Python多处理

Python发送电子邮件

Python中的Gmail API

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器