Python中的逐步回归

2025年1月5日 | 15 分钟阅读

逐步回归是一种统计方法，用于识别与结果变量强相关的最佳预测变量子集。这种回归技术用于选择在预测建模中起关键作用的特征。逐步回归的主要目标是找到最佳模型复杂度和预测精度。逐步回归是机器学习应用中的一种流行方法，广泛应用于金融、营销、医疗保健和社会科学等许多领域。以下是关于逐步回归的一些重要点。

逐步回归算法是一种前向选择或后向消除技术，它根据统计显著性添加预测值或移除预测值。最常见的方法是前向逐步回归。
选择逐步回归最常见的统计检验是 F 检验、t 检验和偏相关系数。
有许多算法可以执行逐步回归，例如 Akaike 信息准则 (AIC)、贝叶斯信息准则 (BIC) 和调整后的 R 方。
逐步回归存在一些局限性和假设，必须予以考虑。逐步回归假设预测变量是独立的，与结果变量线性相关，并且呈正态分布。逐步回归还假设，为避免过拟合或欠拟合问题，样本量应足够大。
可以通过正则化、交叉验证和集成方法等技术增强逐步算法的性能。这些技术可以提高模型的稳健性、泛化能力和稳定性，减少异常值、多重共线性和过拟合。

特征选择

特征选择是训练机器学习算法和设计稳健机器学习模型的重要组成部分。当数据集中特征的数量增加时，机器学习模型的复杂性也会增加。数据中特征的增加可能导致过拟合问题，这意味着模型在训练数据上表现准确，但在测试数据上表现不佳。为避免过拟合问题，特征选择技术对于构建能够准确预测值的机器学习模型非常重要。有许多特征选择技术，每种技术都有优缺点。最常见的特征选择方法是过滤方法、包装方法和嵌入方法。在过滤方法中，特征被排名，并选择最相关的特征。在包装方法中，模型在特征子集上进行训练，并评估模型的性能。在嵌入方法中，算法具有内置的特征选择能力。

关于特征选择的一些重要点。

特征选择方法有助于解决维度灾难问题。维度灾难是数据集中特征数量增加，模型性能下降的问题。因此，特征选择技术有助于减少维度灾难问题。
当特征相关时，机器学习模型的性能可能会受到负面影响。因此，有必要避免相关特征。
特征选择技术有助于单变量分析，即分析每个特征与预测变量之间的关系。
递归特征消除是一种特征选择技术，它是一种基于包装器的方法，其中特征从数据集中递归消除。模型通过这种方法在特征子集上进行训练，并消除最不重要的特征。此过程一直持续到选择了所需的特征数量。
正则化方法也对特征选择很有用；Lasso 和 Ridge 回归是两种通过惩罚模型使用不相关特征来选择特征的技术。损失函数中添加了一个惩罚项，机器学习模型应使用相关特征。

特征选择技术的类型

选择特征是构建机器学习算法的关键步骤，它有助于从数据集中找到相关特征以设计稳健的模型。特征选择是从数据集中找到对训练机器学习模型很重要的特征的过程。随着数据集大小的增加，选择正确的特征是必要的。有许多特征选择方法可用，它们都有自己的优点和局限性。

以下是一些特征选择技术

过滤方法： 过滤方法是一种特征选择方法，其中所有不相关的特征根据统计方法（如相关性、互信息和方差阈值）从数据集中过滤掉。由于这些统计方法在计算方面速度快且成本低，因此它们可以在应用特征选择技术之前的数据准备步骤中用作预处理步骤。考虑一个例子：基于相关性的过滤方法可以找到特征之间的关系，并从数据中删除高度相关的特征，这可以用于提高机器学习算法的性能。
包装方法： 包装方法是一种特征选择技术，其中模型的性能通过不同的特征子集进行评估。选择在机器学习算法上给出最佳性能的特征子集。包装方法在计算上成本很高，因为模型在每个特征子集上进行训练。与过滤方法相比，这些方法在机器学习模型上给出更好的性能。例如，后向消除包装方法通过考虑数据集中的所有特征来开始训练模型，并重复删除最不重要的特征，直到模型的性能得到改善。
嵌入方法： 嵌入方法是一种特征选择技术，其中通过将特征作为模型训练过程的一部分来选择特征。特征的选择和模型的训练是同时进行的，因此这些方法的应用效率很高。例如，Lasso 和 Ridge 回归，它也是一种回归技术，通过在成本函数中添加惩罚项作为特征选择，并通过执行正则化来选择特征，并选择最重要的特征。

选择正确的特征取决于数据的大小、特征的数量和模式的复杂性。通过结合不同的特征方法也可以有助于提高机器学习模型的性能。

逐步回归及其优点

逐步回归是一种特征选择方法，主要用于数据科学、机器学习和统计分析。这种方法有助于找到相关且影响输出变量的特征。逐步回归是一种迭代技术，它包括一次拟合一个特征的模型，并在每个步骤评估模型的性能。逐步回归有几个优点，使其成为特征选择的流行选择。

逐步回归的优点

逐步回归有助于识别在训练机器学习模型中最相关的特征以及影响输出变量的特征。通过重复拟合模型来选择特征，并在每个步骤评估模型的性能，从而缩小对模型训练很重要的特征。
通过删除不相关或冗余的特征，可以提高模型的性能。被消除的特征对模型的性能没有贡献，逐步回归技术也有助于减少数据中的过拟合，提高模型的准确性。
逐步回归有助于节省时间和资源，并且在选择特征方面效率高，可以节省时间和资源。在数据上测试最有可能影响输出变量的特征子集，而不是测试所有可能的特征组合。这样做可以节省时间和计算资源。
逐步回归是一种易于实现且直接的方法。无需特殊知识或任何专业知识，并且可以借助统计软件包完成。
逐步回归通过找到最相关的特征以及影响输出变量的特征，提供了对数据的洞察，这有助于进一步分析。

逐步回归示例

考虑一个包含客户购买模式信息的数据集。数据集中有几个特征，例如客户年龄、性别、收入和购买历史。构建一个模型来预测客户是否可能购买产品。

逐步回归可用于找到影响客户购买行为的相关特征。模型重复拟合，并在每个步骤测试模型的性能，这是训练模型最重要的步骤。例如，年龄、收入和购买历史是可用于预测购买行为的最重要特征。可以消除性别等特征，可以提高模型的性能，并且可以提高模型的准确性。

逐步回归算法

逐步回归是迭代选择特征的特征选择算法。该算法的主要目标是找到在回归模型中预测输出变量最重要的变量子集。逐步回归是选择特征的系统方法，有助于提高模型的准确性性能和可解释性。

基于统计概念，逐步回归算法可用于平衡模型中的偏差-方差权衡。如果数据中有许多变量，模型的方差会增加，模型可能导致过拟合；另一方面，如果数据中变量较少，数据中的偏差可能会增加，模型可能导致欠拟合。逐步回归通过根据统计显著性和对模型的贡献添加或消除变量，找到平衡方差和偏差权衡的最佳方法。

逐步回归也很有用，有助于数据科学家和分析师为大型数据集构建预测模型。自动选择对预测建模最重要的特征，与手动选择或试错法相比，通过应用逐步回归可以节省时间和精力。

在实施逐步回归时，应考虑并记住以下几点

有两种执行逐步回归的方法：前向选择和后向选择。在前向选择中，使用空模型开始预测，并逐个添加变量，直到不再添加显著变量。在后向消除中，在数据上训练完整模型，并从数据中逐个删除变量，直到删除不显著的变量并提高模型的准确性。这两种方法在双向方法中结合使用。
逐步回归使用 F 检验和 t 检验等统计检验来查找每个变量的显著性。p 值低的变量被认为是显著的并添加到模型中，p 值高的变量被认为是不显著的并从数据中删除。
如果使用不小心，逐步回归可能导致模型过拟合。因此，使用交叉验证技术和其他技术来验证模型非常重要，并且应避免数据中的噪声。
逐步回归并不总是能提供最好的特征。在某些情况下，需要领域知识或专家输入来选择特征。可以使用其他特征选择方法从数据中选择特征来训练模型，例如 Lasso 或 Ridge 回归，它们可能更适用于高维数据。

在 Python 中实现逐步回归

逐步回归是一种处理特征选择的方法。逐步回归在数据分析任务中很受欢迎，有助于选择数据中最重要的特征和变量。逐步回归的目标是找到在提高机器学习模型准确性方面最重要的特征，并且可以准确预测结果变量。让我们看看如何在 Python 中实现逐步回归。有许多方法可以实现逐步回归，包括前向选择、后向消除和双向消除。每种方法都有其自身的优缺点，这取决于问题选择哪种方法。以下是在 Python 中实现逐步回归的一些步骤。

首先，应导入重要的库，并导入 NumPy、Pandas 和 Statsmodels 等库以实现逐步回归。
导入库后，下一步是加载数据集。
加载数据集后，下一步是预处理数据。数据预处理包括处理缺失值、检测和删除异常值以及缩放和标准化数据。
数据预处理后，数据分为训练集和测试集。训练集用于训练模型，测试集用于评估模型的性能。
下一步是选择实现逐步回归的方法。前向选择方法从零变量开始训练算法，并一次添加一个变量，直到额外的变量不再改进模型。后向消除方法通过在开始时重复获取所有变量来改进变量。变量被逐个删除，直到模型的性能得到改善。这两种方法在双向方法中结合使用。
选择适当的方法后，模型拟合到 Statsmodels 中。
拟合和训练模型后，评估其性能。评估性能指标，例如 R 方、均方误差和均方根误差。

让我们看看如何实现逐步回归。

代码

import pandas as pd
import numpy as np
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.feature_selection import SequentialFeatureSelector
 
# Define the array of data
data = np.array([[1, 2, 3, 4],
                 [5, 6, 7, 8],
                 [9, 10, 11, 12]])
 
# Convert the array into a dataframe
df = pd.DataFrame(data)
 
# Select the features and target
X = df.iloc[:, :-1]
y = df.iloc[:, -1]

说明

在上面的代码中，导入了重要的机器学习库，并借助 np.array 方法创建了数据。数据转换为数据帧，并选择 x 和 y 特征。

代码

# Perform stepwise regression
sfs = SequentialFeatureSelector(linear_model.LogisticRegression(),
                                k_features=3,
                                forward=True,
                                scoring='accuracy',
                                cv=None)
selected_features = sfs.fit(X, y)

说明

在上面的代码中，使用逻辑回归模型调用 SequentialFeatureSelection，特征数量选择为 3。选择技术是前向的，评分方法是准确的，并且 CV 为 None。然后，x 和 y 特征拟合到模型中。

代码

# Create a dataframe with only the selected features
selected_columns = [0, 1, 2, 3]
df_selected = df[selected_columns]
 
# Split the data into train and test sets
X_train, X_test,\
    y_train, y_test = train_test_split(
        df_selected, y,
        test_size=0.3,
        random_state=42)
 
# Fit a logistic regression model using the selected features
log reg = linear_model.LogisticRegression()
logreg.fit(X_train, y_train)
 
# Make predictions using the test set
y_pred = logreg.predict(X_test)
 
# Evaluate the model performance
print(y_pred)

输出

[8]

说明

在上面的代码片段中，选定的列是 [0, 1, 2, 3]，数据分为训练集和测试集，选定的数据特征传递给逻辑回归方法，数据被预测，输出是 [8]。

解释逐步回归结果

逐步回归是一种统计方法；借助它，选择相关特征来训练模型。如果能有目的地使用，逐步回归是选择特征的强大工具。在实施逐步回归时，应考虑各种因素，例如

应避免过拟合，因为过拟合可能是模型准确性低的原因，这使得模型过于复杂，并且数据与训练数据过于拟合。虽然模型在训练数据中的准确性很高，但测试数据和模型性能却很低。因此，应避免数据中的过拟合。有各种方法可以避免过拟合，例如交叉验证以测试模型在新数据上的性能。
在逐步回归中应考虑显著性水平，以检查是否应根据显著性水平添加或删除特征。如果显著性水平较低，则许多特征变量会包含在模型中，如果显著性水平过高，则可能导致排除重要特征。
在解释逐步回归模型时，应注意模型的稳定性。稳定的模型可以在不同的数据样本中给出一致的结果。如果模型不稳定，则很难准确解释结果并进行预测。有一种方法可以检查模型的稳定性：自举方法，它生成数据的多个样本，并在每个步骤测试模型的性能。
应避免数据中的多重共线性以获得更好的模型。当数据中两个或更多特征之间表现出高度相关性时，可以说数据中存在多重共线性。多重共线性在逐步回归中会产生问题，因为很难找到哪个特征真正定义了预测变量中的关系。可以通过打印特征的相关矩阵并借助主成分分析等技术来减少模型中的特征，从而避免数据中的多重共线性。

逐步回归的局限性和挑战

逐步回归是一种统计方法，用于识别与结果变量强相关的最佳预测变量子集。这种回归技术用于选择在预测建模中起关键作用的特征。逐步回归的主要目标是找到最佳模型复杂度和预测精度。逐步回归是机器学习应用中的一种流行方法，广泛应用于金融、营销、医疗保健和社会科学等许多领域。使用逐步回归时，模型的可靠性和准确性可能会受到影响，因此在使用逐步回归之前了解它们很重要。以下是逐步回归的一些局限性和挑战。

过拟合： 过拟合是使用逐步回归时应考虑的主要挑战。在逐步回归方法中，特征会不断迭代地添加和删除，直到达到最佳数据子集。这种方法可能导致模型适合训练数据并捕获数据的所有可能性，但在测试数据上表现不佳或无法很好地泛化未见数据。为避免过拟合，可以使用交叉验证方法来估计模型在未见数据上的性能。
多重共线性： 多重共线性是逐步回归技术的主要局限性和挑战。当数据中两个或更多特征变量高度相关时，就会发生这种情况。在这种情况下，模型很难区分这些特征变量的影响，这会导致模型性能的不稳定性和不可靠性。可以通过打印相关矩阵、主成分分析和其他方法来减少高度相关数据集中特征的数量，从而减少数据中的多重共线性。
选择偏差： 逐步回归的另一个局限性和挑战是它存在选择偏差。在该方法中，特征通过基于特定标准（例如 p 值或 AIC）来选择最佳特征子集。该标准不能总是为特定问题提供更好的结果，这会导致有偏差的结果。例如，如果标准是根据训练数据设置的，则模型可能无法很好地泛化到新数据。要解决选择偏差问题，应选择适当的标准来解决手头的问题。
计算复杂性： 当处理大型数据集时，逐步回归在计算上可能成本很高。选择最佳特征子集非常耗时，这包括测试特征的多种组合。随着数据大小的增加，计算复杂性也会增加。这可能导致逐步回归在某些问题中无法实际使用。
假设违反： 逐步回归假设因变量和自变量之间存在线性关系。逐步回归的这一假设可能导致不准确的结果。例如，如果数据中存在非线性关系，逐步回归无法捕获数据中的底层模式。在这种情况下，应使用非线性方法，例如决策树或神经网络。

结论

逐步回归是统计建模中特征选择中广泛使用的技术。通过这种技术选择最佳特征，提高了模型的准确性，也减少了过拟合。

下一个主题使 Python 代码更具可读性的最佳实践

← 上一步下一步 →

Python中的逐步回归

特征选择

特征选择技术的类型

逐步回归及其优点

逐步回归的优点

逐步回归示例

逐步回归算法

在 Python 中实现逐步回归

解释逐步回归结果

逐步回归的局限性和挑战

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

其他

Python中的逐步回归

特征选择

特征选择技术的类型

逐步回归及其优点

逐步回归的优点

逐步回归示例

逐步回归算法

在 Python 中实现逐步回归

解释逐步回归结果

逐步回归的局限性和挑战

结论

相关帖子

Python中的Quickselect算法

Python中的条形图

Python中的islice()

如何使用Python发送Slack消息？

有哪些Python游戏引擎

如何通过值从Python字典中提取键

使用Python Pandas读取CSV文件的特定列

为什么我们将训练和测试数据分为80/20

使用Pandas DataFrame的dtypes属性在Python中查找列的数据类型

Python中合并两个文件

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器