线性回归与逻辑回归

2025 年 2 月 12 日 | 阅读 8 分钟

线性回归和逻辑回归是监督学习技术下的两种著名的机器学习算法。由于这两种算法本质上都是监督式的，因此它们都使用带标签的数据集进行预测。但它们之间的主要区别在于使用方式。线性回归用于解决回归问题，而逻辑回归用于解决分类问题。下面将对这两种算法进行描述，并附有区别表。

线性回归

线性回归是一种最简单的机器学习算法，属于监督学习技术，用于解决回归问题。
它用于在独立变量的帮助下预测连续的因变量。
线性回归的目标是找到可以准确预测连续因变量输出的最佳拟合线。
如果使用单个自变量进行预测，则称为简单线性回归；如果有两个以上的自变量，则称为多元线性回归。
通过找到最佳拟合线，算法建立了因变量和自变量之间的关系。并且关系应该是线性的。
线性回归的输出应仅为连续值，如价格、年龄、薪资等。因变量和自变量之间的关系如下图所示：

在上图中，因变量在Y轴（薪资）上，自变量在X轴（经验）上。回归线可以写成：

y= a₀+a₁x+ ε

其中，a₀和a₁是系数，ε是误差项。

逻辑回归

逻辑回归是最流行的机器学习算法之一，属于监督学习技术。
它可用于分类和回归问题，但主要用于分类问题。
逻辑回归用于在自变量的帮助下预测分类因变量。
逻辑回归问题的输出只能在0和1之间。
当需要两个类别之间的概率时，可以使用逻辑回归。例如，今天是否会下雨，是0还是1，真还是假等等。
逻辑回归基于最大似然估计的概念。根据这种估计，观测数据应具有最高概率。
在逻辑回归中，我们将输入的加权和通过一个激活函数，该函数可以将值映射到0到1之间。这种激活函数称为**Sigmoid函数**，得到的曲线称为Sigmoid曲线或S形曲线。请看下图：

逻辑回归的方程为：

线性回归与逻辑回归的区别

线性回归	逻辑回归
线性回归用于使用一组给定的自变量来预测连续的因变量。	逻辑回归用于使用一组给定的自变量来预测分类因变量。
线性回归用于解决回归问题。	逻辑回归用于解决分类问题。
在线性回归中，我们预测连续变量的值。	在逻辑回归中，我们预测分类变量的值。
在线性回归中，我们找到最佳拟合线，从而可以轻松预测输出。	在逻辑回归中，我们找到S形曲线，从而可以对样本进行分类。
最小二乘估计法用于精度估计。	最大似然估计法用于精度估计。
线性回归的输出必须是连续值，例如价格、年龄等。	逻辑回归的输出必须是分类值，例如0或1、是或否等。
在线性回归中，要求因变量和自变量之间的关系必须是线性的。	在逻辑回归中，不要求因变量和自变量之间存在线性关系。
在线性回归中，自变量之间可能存在共线性。	在逻辑回归中，自变量之间不应存在共线性。

高级选择题：线性回归 vs. 逻辑回归

1. 您正在进行一项时间序列预测任务，股票价格是您感兴趣的变量。Fan和Tchernis（2008）的研究表明，数据存在异方差性，意味着方差不是恒定的。哪种模型对这个问题更具鲁棒性：哪种模型对这个问题更具鲁棒性？

使用普通最小二乘法的线性回归
使用加权最小二乘法的线性回归
逻辑回归
梯度提升回归

答案： (b)

解释：异方差性违反了普通最小二乘法的假设，从而导致估计有偏。加权最小二乘法是指一种为数据点分配权重以增强模型方差的方法。

2. 一个组织希望预测客户满意度评分（介于1到5之间），这取决于他们的购买记录和客户的背景数据。考虑到所有这些因素，线性回归似乎是合理的。然而，该公司也很关心那些实际给出了5分的客户，这可以被认为是最佳满意度水平。以下哪种方法可能适用于这种情况？

简单回归方法，使用了“高”满意度作为截止点
有序逻辑回归。
5组多项逻辑回归
K均值邻近回归（KDN）

答案： (b)

解释：有序逻辑回归测试也通常被称为比例优势模型。线性回归用于预测实值，而不是将它们分类到不同的类别，例如“高度满意”。因此，在对满意度分数进行排序时，有序逻辑回归将保持可解释性。

3. Lasso或L1正则化以使模型稀疏而闻名。从线性回归到使用Lasso的逻辑回归，这种属性在哪些方面发生了变化？

在线性回归中，一些系数有时会变为零，而在逻辑回归中，它们都会变为零。
这是因为逻辑回归中采用的模型是非线性的，从而放大了稀疏性的影响。
就后者而言，稀疏性在这些模型中的工作方式没有本质区别。
Lasso不能用于逻辑回归。

答案： (c)

解释：值得注意的是，稀疏性在这两种模型中的使用和功能几乎是相似的。Lasso回归通过惩罚系数或将其推向零来鼓励系数变小。两者都会呈现出基于数据和正则化程度的系数，这些系数可能变为零。

4. 您正在创建一个模型来检测欺诈。假阳性比假阴性造成的成本更高，因为真实的交易被错误地分类为欺诈。以下哪种指标最适合用于评估此任务的逻辑回归模型？

精度
精度
召回率
F1分数

答案： (b)

解释：在欺诈检测中，假阳性的成本高于假阴性。特异度确定了被标记为欺诈类别的交易数量。

5. Dropout是一种常用于神经网络的优化方法。我们是否必须应用dropout来增强逻辑回归模型？为什么或为什么不？

否，dropout仅用于具有多个隐藏层的神经网络。
是，dropout可以用于逻辑回归模型提案的输入层。
是，dropout可以在训练阶段使用，其中可以删除特定特征以防止过拟合。
由于逻辑回归模型是非过拟合的，因此您不必考虑使用dropout。

答案： (c)

解释：可以通过训练网络并丢弃某些特征来对逻辑回归应用特征dropout。这样，模型就不会过度拟合某些属性，并能泛化其输出。

6. 在逻辑回归模型中，特征的系数为正表示什么意思？

随着特征值的增加，正类出现的概率也随之增加。
当相关特征的值较高时，类别1的概率较低。
实际上并没有直接衡量特征值与概率变化之间的关系。
系数代表的值没有特定含义，但“+”或“-”有。

答案： (a)

解释：逻辑回归中的正系数表示与正类概率呈正相关。随着特征值的增加，正类的对数优势也会增加，使其更有可能。

7. 与LASSO相比，岭回归（L2正则化）如何影响逻辑回归模型的可解释性？

岭回归平均收缩所有系数，使得数据解释比Lasso更复杂。
岭回归将一些系数减小到零，使其比Lasso更易于解释。
岭回归和Lasso的解释性能受到同等影响。
岭回归减小系数但将其设置为零，因此更容易与非正则化模型进行比较。

答案： (b)

解释：岭回归将系数收缩至零，但不一定将其设置为零。这使得其比Lasso更易于解释，Lasso可以将系数设置为零，从而完全从模型中移除特征。

8. 在比较线性回归和逻辑回归模型的训练时间时，哪种说法最准确？

线性回归总是训练得更快。
逻辑回归总是训练得更快。
训练时间取决于数据的大小和复杂性以及所选的优化算法。
在大多数实际情况下，训练时间差异可以忽略不计。

答案： (c)

解释：训练时间取决于各种因素，例如数据大小、特征数量和优化算法。没有关于哪个模型总是更快的通用规则，在许多情况下，差异可能可以忽略不计。

9. 在两个ML模型中，哪一个更容易受到高度相关特征问题的影响？

线性回归
逻辑回归
它们的敏感性没有区别。
它们都不受特征之间相关性的影响。

答案： (a)

解释：线性回归更容易受到多重共线性的影响，多重共线性是由高度相关的特征引起的。这可能导致系数不稳定和结果不准确。逻辑回归对此类问题不太敏感。

10. 在哪种情况下，逻辑回归通常被认为是比SVM更好的分类任务选择？

当预期存在复杂、非线性的决策边界时。
当模型的可解释性和特征重要性至关重要时。
当处理非常小的数据集时。
当误分类的成本对于两个类别是相同时。

答案： (b)

解释：逻辑回归通过系数对特征与类别概率之间的关系进行建模。这些系数表明每个特征对结果的影响方向和强度。这使我们能够理解哪些特征对于做出预测最重要。

下一主题决策树分类算法

线性回归与逻辑回归

线性回归

逻辑回归

高级选择题：线性回归 vs. 逻辑回归

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

线性回归与逻辑回归

线性回归

逻辑回归

高级选择题：线性回归 vs. 逻辑回归

相关帖子

神经网络中的 Dropout 是什么

线性模型

基于人口统计学的推荐系统

机器学习中的 5 种概率训练数据抽样方法

深度分离卷积神经网络

张量处理单元

朴素预测方法

机器学习在机器人领域的应用

LiDAR：用于 3D 重建的光探测与测距

机器学习中的森林覆盖类型预测

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器