使用梯度下降进行线性回归

2025年3月17日 | 阅读 8 分钟

线性回归是获取工具知识和事实的主要方法之一。它是对因变量中一个或另一个无偏变量与因变量之间相关性建模的强大工具。当与梯度下降结合使用时，线性回归还变得更加灵活，考虑了模型参数的绿色优化和预测精度的提高。

在本文中，我们将探讨线性回归和梯度下降的原理，了解它们如何协同建模，并通过实际示例展示它们的实用性。

线性回归

这个特定线性回归的目标是找到描述无偏变量（或多个无偏变量）与结构化变量之间关系的最佳拟合线。这条线由以下方程表示：

y = mx + b

其中 m 是直线的斜率，b 是 y 轴截距，x 是自变量，y 是因变量。

如果存在多个自变量，则方程扩展为：

Linear Regression using Gradient Descent

线性回归的思想是找到参数 m 和 b 的值，通过模型在实际值和预期值之间的差异来解释 y 的值。

线性回归的目标是找到参数 m 和 b 的最大值，这些值记录了一系列参数。为了实现这一点，通常使用一种称为普通最小二乘法 (OLS) 的方法，该方法使观测值和因变量的预期值之间的总平方方差的差异最小。

尽管线性回归为变量之间的关系建模提供了一种可靠的方法，但其假设需要几个步骤。线性回归假设变量之间的关系是线性的，残差（观测值和预期值之间的差异）呈正态分布，并且残差的方差是恒定的（对称性）。

尽管简单，线性回归是一种有效且广泛使用的数据分析和机器学习技术。在此基础上构建了更复杂的方法和技术，并且它们的解释有助于以事实为基础识别和解释关系。

引入梯度下降

梯度下降是一种优化算法，用于通过迭代更新模型参数来最小化成本函数。对于线性回归，最常用的成本函数是均方误差 (MSE)，即：

其中 n 是数据点的数量，yi 和 xi 分别是实际值和自变量。

其核心在于，梯度下降通过步进到成本函数的“最陡下降”来工作。成本函数衡量模型预测的输出与实际目标值之间的差异。通过减小这种差异，模型在其预测中变得更加准确。

梯度下降背后的基本思想是，模型的参数会以“一定比例”更新，使其相对于成本函数“关于参数的梯度”变为负。梯度表示“信号”中更陡峭的方向，因此，沿着相反方向前进会导致“质量”的下降。

梯度下降算法通过沿着函数关于参数的“负梯度”方向迭代更新参数来工作。使用梯度下降进行线性回归的更新规则包括：

其中 α 是“学习率”，表示每次迭代中步长的大小。

梯度下降有几种变体，包括批梯度下降、随机梯度下降和小批量梯度下降，每种都有其优缺点。在批梯度下降中，梯度在每次迭代中使用整个数据集计算，这对于大型数据集来说计算成本很高。然而，随机梯度下降一次使用一个数据元素计算梯度，这可以实现快速收敛，但也可能导致更新不稳定。小批量梯度下降在每次迭代中使用一部分数据来计算梯度，从而在两者之间取得了“一致性”。

尽管简单，梯度下降是一种有效的“调整指令集”，可以改变“仪器可读性”。它使模型能够从数据中高效地进行学习，并调整其假设以最小化误差，使其成为许多“样式”的重要训练工具。

实施

以下是使用 Python 实现线性回归和梯度下降的分步简单实现。

1. 定义二次函数

def quadratic_function(x):
    return 3 * x ** 2 - 6 * x + 2

在这里，我们定义一个简单的二次函数 f(x) = 3 - 6x + 2。该函数代表我们希望使用梯度下降进行优化的问

2. 定义二次函数的导数

def derivative_quadratic_function(x):
    return 6 * x - 6

我们还勾勒出二次函数的“副产品”，这对于梯度下降很重要。“导数”告诉我们函数在任意给定点 x 处的“转化”情况。

3. 梯度下降函数

def gradient_descent(initial_x, learning_rate, num_iterations):
 x = initial_x
    for i in range(num_iterations):
        gradient = derivative_quadratic_function(x)
        x = x - learning_rate * gradient
    return x

此函数实现了梯度下降。它接受三个参数：initial_x（最小值的初始猜测）、learning_rate（每次迭代的步长）和 num_iterations（要执行的迭代次数）。

在该函数中，我们使用初始猜测初始化变量 x。然后，我们进入一个循环，该循环迭代 num_iterations 次。在每次迭代中，我们使用导数函数计算当前 x 值下二次函数的梯度。然后，通过减去学习率和梯度的乘积来更新 x。此步骤将 x 向函数最小值移动。

4. 运行梯度下降

initial_x = 0.0
learning_rate = 0.1
num_iterations = 100
optimal_x = gradient_descent(initial_x, learning_rate, num_iterations)

在这里，我们设置最小值的初始猜测 (initial_x)、学习率 (learning_rate) 和迭代次数 (num_iterations)。然后，我们使用这些参数调用 gradient_descent 函数来查找最小化二次函数的 x 的“最优”值。

5. 打印结果

print("Optimal x:", optimal_x)
print("Optimal value of the quadratic function:",
quadratic_function(optimal_x))

最后，我们打印出“最优”x 值以及该点处二次函数的相应值。

此实现演示了如何使用梯度下降来查找简单二次函数的最小值。在实践中，梯度下降用于优化更复杂的函数，包括机器学习模型中遇到的函数。

让我们通过一个简单的例子及其过程来理解实现。

让我们考虑一个使用梯度下降来根据房屋大小（以平方英尺为单位）预测房价的简单线性回归示例。我们将假设有一个包含房屋大小和相应价格对的数据集。

import numpy as np

# Generate sample data
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# Perform gradient descent
learning_rate = 0.01
n_iterations = 1000
m = np.random.randn(1)
b = np.random.randn(1)

for iteration in range(n_iterations):
    y_pred = m * X + b
    error = y_pred - y
    mse = np.mean(error**2)
    gradient_m = np.mean(error * X)
    gradient_b = np.mean(error)
    m -= learning_rate * gradient_m
    b -= learning_rate * gradient_b

print("Slope (m):", m[0])
print("Y-intercept (b):", b[0])

输出

Slope (m): 3.231122183166969
Y-intercept (b): 3.92614534909078

实现步骤

初始化参数：从 m 和 b 的一些初始值开始。
计算预测：使用当前 m 和 b 的值来预测 y 的值。
计算成本：使用预测的 y 值和实际 y 值计算均方误差。
更新参数：使用梯度下降更新规则更新 m 和 b。
重复步骤 2-4 直到收敛：继续迭代，直到成本函数收敛到最小值。

应用

梯度下降是一种用途广泛的优化算法，在各个领域都有广泛的应用。梯度下降的一些主要应用包括：

机器学习和深度学习

梯度下降在训练机器学习模型中尤其受到重视，尤其是在神经网络和深度学习领域。它有助于优化模型参数（权重和偏差）以减小预测输出与实际输出之间的差异。在 TensorFlow 和 PyTorch 等深度学习框架中，通常会采用随机梯度下降 (SGD)、小批量梯度下降和 Adam 优化等技术。

线性回归和逻辑回归

梯度下降用于训练线性回归模型和逻辑回归模型。在线性回归中，使用梯度下降来最小化预测值与实际值之间的均方误差。在逻辑回归中，它优化参数以减小交叉熵损失，从而实现二元分类任务。

优化问题

梯度下降被应用于解决工程、物理、经济学等领域的各种优化问题。它可以用于最小化成本函数、最大化效用函数或找到复杂系统的最优参数。应用包括控制系统中的参数估计、运筹学中的最优资源分配以及金融中的投资组合优化。

自然语言处理（NLP）

在自然语言处理 (NLP) 任务中，如语言建模、文本生成和机器翻译，梯度下降被用于训练基于神经网络的模型。循环神经网络 (RNN)、长短期记忆 (LSTM) 网络和 Transformer 模型等模型使用梯度下降来学习文本数据中的模式和关系，从而提高它们在情感分析、命名实体识别和语言生成等任务上的性能。

计算机视觉

梯度下降被应用于计算机视觉任务，如图像分类、目标检测和图像分割。广泛用于计算机视觉的卷积神经网络 (CNN) 使用梯度下降进行训练，以优化卷积滤波器和全连接层。这使得网络能够从图像中提取有意义的特征并做出准确的预测。

强化学习

梯度下降在训练强化学习代理在动态环境中学习最优策略方面发挥着关键作用。深度 Q 学习和策略梯度等算法使用梯度下降来更新基于神经网络的策略或价值函数近似器的参数。这使得代理能够随着时间的推移提高其决策能力，并在玩游戏、机器人和自主导航等任务中取得更好的性能。

这些只是梯度下降广泛应用的几个例子。它的效率、灵活性和优化复杂函数的能力使其成为当今数据科学、机器学习和优化领域的重要工具。

结论

使用梯度下降进行线性回归是一种强大的技术，用于建模和预测变量之间的线性关系。通过基于成本函数的梯度迭代更新模型参数，梯度下降可以实现高效优化，使其适用于大型数据集和复杂模型。理解线性回归和梯度下降背后的概念对于任何从事机器学习、数据科学和数据分析领域的人都至关重要。有了这些知识，从业者就可以构建准确的模型并从数据中获得有价值的见解。

下一主题K-Means 文本聚类

使用梯度下降进行线性回归

线性回归

引入梯度下降

实施

应用

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

使用梯度下降进行线性回归

线性回归

引入梯度下降

实施

应用

结论

相关帖子

使用 Scikit Learn 的梯度提升分类器

机器学习中的股票市场预测

ACF 和 PCF

DC-GAN

时间序列的 ML 方法

机器学习中的解析解

贪婪层向预训练

机器学习中的定向广告

机器学习在教育领域的应用

机器学习中的 Transformer

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器