逻辑回归的假设

2025年2月3日 | 阅读17分钟

逻辑回归是统计分析和机器学习中的一个基本工具,广泛用于二元分类任务。它的广泛采用源于其简单性、可解释性和有效性。然而,要正确应用逻辑回归并确保其结果可靠,理解并满足其基本假设至关重要。本文将详细介绍逻辑回归的关键假设。

1. 二元结果变量

逻辑回归是一种用于预测二元结果的统计技术。这意味着因变量,即我们试图预测的最终结果,只能有两个可能的值。这些值通常表示为 0 和 1,表示两个类别或分组。

什么是二元结果?

二元结果实际上是指具有两种可能状态的结果。例如,在一项医学研究中,结果可能是患者是否患有某种疾病(1)或未患有该疾病(0)。在营销活动中,结果可能是客户是否购买(1)或未购买(0)。其他例子包括:

  • 通过(1)或失败(0)
  • 成功(1)或失败(0)
  • 是(1)或否(0)

为什么二元结果假设很重要?

二元结果假设至关重要,因为逻辑回归旨在模拟发生两种结果之一的概率。该模型根据一组自变量估计因变量等于 1 的概率。然后,该概率用于将观测值分类到两个类别之一。

在数学上,逻辑回归模型可以表示为:

Assumptions of Logistic Regression

其中,P(Y = 1 ∣ X) 是结果 Y 为 1 的概率,给定预测变量 X,而 β_0, β_1, β_2……. β_k 是从数据中估计出的系数。

实际应用

在准备逻辑回归数据时,确保结果变量是二元的至关重要。如果结果变量有多个类别,则逻辑回归不适用。相反,应使用其他方法,例如多项逻辑回归,来处理多于两个类别的结果。

同样,保持二元结果的一致性也很重要。例如,如果您正在对“是/否”结果进行编码,请决定是将“是”编码为 1,“否”编码为 0,还是反之亦然,并在整个分析过程中坚持此约定。

2. 观测的独立性

逻辑回归的关键假设之一是观测的独立性。此假设意味着一个观测的结果不得影响另一观测的结果。确保观测是独立的对于模型的推论的有效性至关重要。

什么是观测的独立性?

观测的独立性意味着数据集中的数据点之间没有关联。每个观测都应是一个独立的实体,不受其他观测的影响。例如:

  • 在医学研究中,一个病人的健康结果不应影响另一个病人的健康结果。
  • 在调查中,一个受访者的答案不应影响另一个受访者的答案。
  • 在财务分析中,一个消费者的购买行为不应影响另一个消费者的购买行为。

为什么这个假设很重要?

观测的独立性至关重要,因为逻辑回归基于观测是独立地从总体中抽样的假设。如果观测是相关的,则预测系数的标准误差可能会被低估,从而导致检验统计量膨胀,并对数据中的关系得出过于乐观的结论。这可能导致错误的推论和基于该模型做出的可能错误的决定。

违反的后果

如果观测的独立性假设被违反,可能会对您的逻辑回归模型产生一些不利影响:

  • 第一类错误率膨胀:错误地检测到效应(拒绝真实的零假设)的可能性会增加。
  • 估计偏差:系数估计可能存在偏差,导致对变量之间关系的结论不正确。
  • 标准误差不正确:系数的标准误差可能被低估,导致置信区间过窄,p 值过小。

如何确保独立性

为了确保观测的独立性,请考虑以下实践:

  • 适当的研究设计:以最大程度地降低观测之间依赖性的方式设计您的研究或实验。例如,在临床试验中,使用随机分配到治疗组来确保独立性。
  • 数据收集方法:以防止一个观测影响另一个观测的方式收集数据。避免受访者之间就其回答进行交流的情况。
  • 聚类数据:如果您的数据是聚类或分层的(例如,学校里的学生,医院里的病人),请使用旨在处理此类结构(如混合效应模型或广义估计方程(GEE))的统计方法。
  • 时间序列数据:对于随时间收集的数据,请确保通过使用时间序列分析方法或包含滞后变量来考虑时间依赖性。

示例场景

设想您正在研究零售店多个分店的客户满意度调查结果。如果来自同一分店的客户互相讨论他们的满意度水平,那么他们的回答可能不是独立的。在这种情况下,按部门聚类和使用分层建模策略可以帮助处理潜在的依赖性。

3. 自变量和 Logit 的线性关系

逻辑回归假设自变量与因变量的 logit(对数几率)之间存在线性关系。此假设对于模型参数的准确估计和可靠的预测至关重要。

什么是 Logit?

logit 函数是因变量为 1(或属于正类)的几率的自然对数。它将事件发生的概率转换为无界的连续变量,使其更易于使用线性方法进行建模。

Logit 中的线性关系为何重要?

logit 中的线性关系假设保证了自变量与结果的对数几率之间的关系是加性的且线性的。这使得模型能够正确地捕捉每个预测变量对结果概率的影响。

违反的后果

如果违反了线性关系假设,模型可能估计错误,导致估计值有偏差且结论不正确。预测的概率可能具有误导性,从而影响模型的整体性能。

检查线性关系

要检查 logit 中的线性关系,可以使用以下方法:

  • 散点图:绘制因变量的 logit(对数几率)与每个自变量的关系图。在这些图中寻找线性关系。
  • Box-Tidwell 检验:此统计检验用于检查 logit 的线性关系。它包括将自变量与其对数之间的交互项添加到模型中,并检验其显著性。
  • 残差图:绘制残差(观测值与预测值之间的差异)与自变量的关系图。非随机模式可能表明存在非线性。

处理非线性关系

如果检测到非线性关系,请考虑以下方法:

  • 变量变换:对自变量应用变换,例如对数、平方根或多项式变换,以获得与 logit 的线性关系。
  • 使用样条:样条通过将变量的范围划分为多个区间并在每个区间内拟合单独的线性关系,从而允许灵活地对非线性关系进行建模。

示例场景

假设您正在根据客户的年龄和收入来预测其购买的可能性。如果年龄与购买的对数几率之间的关系是非线性的,则您可能会绘制 logit 与年龄的关系图,并注意到一个曲线模式。

4. 无多重共线性

多重共线性是指回归模型中两个或多个自变量高度相关的情况。这在逻辑回归中会带来重大问题,因为它使得确定每个预测变量对因变量的个体影响变得困难。理解和解决多重共线性对于构建稳健且可解释的逻辑回归模型至关重要。

什么是多重共线性?

当回归模型中的自变量之间不独立,而是表现出高度相关性时,就会发生多重共线性。这意味着一个自变量可以从其他变量中以很高的精度进行线性预测。

为什么多重共线性是个问题?

多重共线性在几个方面影响逻辑回归:

  • 不稳定的系数估计:当自变量高度相关时,数据中的微小变化会导致系数估计发生巨大变化。这使得模型不稳定,结果难以解释。
  • 标准误差膨胀:多重共线性增加了系数的标准误差,这意味着系数的置信区间更宽,系数的假设检验(例如 t 检验)的可靠性更低。
  • 难以确定个体影响:在高度多重共线性时,由于它们的影响相互混淆,因此很难评估每个预测变量的个体影响。
  • 冗余:高度相关的变量不会为模型提供独特的信息。包含冗余变量会使模型更复杂,而不会提高其解释力。

检测多重共线性

有几种方法可以检测多重共线性:

  • 相关矩阵:检查自变量对之间的相关系数。接近 +1 或 -1 的相关系数表示高度相关。
  • 方差膨胀因子 (VIF):计算每个自变量的 VIF。VIF 值高于 10 表示高度多重共线性,而 5 到 10 之间的值表示中度多重共线性。
  • 容差:容差值是 VIF 的倒数。低于 0.1 的容差值表示存在严重的多重共线性。
  • 特征值和条件指数:对自变量的相关矩阵执行特征值分析。条件指数大于 30 表示存在严重的多重共线性。

处理多重共线性

如果检测到多重共线性,可以使用多种技术来处理:

  • 删除高度相关的预测变量:从模型中识别并删除一个高度相关的预测变量。根据理论考虑或实际重要性选择要删除的变量。
  • 组合预测变量:通过组合高度相关的预测变量来创建新变量。例如,如果变量测量相似的构造,则考虑对它们进行平均或使用它们的总和。
  • 主成分分析 (PCA):使用 PCA 将相关预测变量转换为一组较小的无相关成分。然后,这些成分可以用作回归模型中的预测变量。
  • 岭回归:应用岭回归,这是一种在回归中添加惩罚项以收缩高度相关变量系数的方法。虽然此方法可以减少多重共线性的影响,但它也会改变系数的解释。

示例场景

考虑一个您正在根据各种财务指标(包括年收入、总债务和月供)预测贷款违约概率的情况。如果年收入和总债务高度相关,则将两者都包含在模型中可能会导致多重共线性。您可以选择删除其中一个变量或将它们组合成一个单一的财务稳定性指数。

5. 大样本量

逻辑回归的一个关键假设是样本量要大。充分的样本量对于确保估计值可靠且稳定,以及模型的整体有效性至关重要。

为什么大样本量很重要?

  • 准确的参数估计:逻辑回归估计自变量与因变量对数几率之间的关系。在样本量小的情况下,这些估计值可能变化很大且不可靠。
  • 统计功效:大样本量会增加模型的统计功效。这意味着如果变量之间存在真实效应和关系,您更有可能检测到它们。
  • 模型稳定性:大样本提供更多信息,从而使模型参数更稳定、更稳健。这降低了过拟合的可能性,即模型在训练数据上表现良好,但在新的、未见过的数据上表现不佳。
  • 可靠的 p 值和置信区间:有更多信息,p 值和置信区间的计算变得更加可靠。小样本量可能导致 p 值具有误导性,置信区间过宽,从而难以得出有意义的结论。

样本量经验法则

虽然所需的具体样本量可能取决于各种因素,例如预测变量的数量和预期的效应大小,但一些通用建议包括:

  • 每个预测变量的事件数 (EPV):一个常见的经验法则是每个预测变量至少有 10 个事件。例如,如果您有 5 个自变量,您应该争取至少 50 个事件(例如,编码为 1 的结果事件 50 次)。
  • 最小总样本量:一些专家建议总样本量至少为 100-200 个观测值,无论预测变量的数量如何,以确保估计值稳定。

小样本量的后果

在逻辑回归中使用小样本量可能导致多种问题:

  • 过拟合:模型可能与训练数据中的噪声而不是潜在的模式匹配,导致在新数据上的泛化能力较差。
  • 估计值不稳定:自变量的系数可能高度不稳定,添加或删除一些数据点会导致它们发生显著变化。
  • 标准误差膨胀:小样本量可能导致标准误差增大,从而更难检测到显著结果。
  • 偏差:参数估计可能存在偏差,尤其是在样本量不能很好地代表总体时。

确保充足样本量的实用技巧

数据收集:规划您的数据收集方法,以确保您获得足够大的样本。考虑潜在的流失率,并以更大的初始样本量为目标以弥补这一点。

  • 模拟研究:进行模拟研究以了解不同样本量对您的特定模型和数据的影响。
  • 试点研究:进行试点研究以初步估计数据中的效应大小和变异性,这可以为主要研究所需的样本量提供信息。
  • 替代方法:如果无法收集大样本,请考虑使用为小样本设计的替代统计方法,例如惩罚回归方法。

示例场景

设想您正在分析各种人口统计和生活方式因素对患某种疾病的可能性的影响。如果您只有 50 人的样本和 10 个预测变量,则 EPV 仅为 5,低于建议阈值。这可能导致估计值不稳定和结论不可靠。为了解决这个问题,您可以尝试从更多人那里收集数据,或减少预测变量的数量。

6. 测量误差小或无

当数据集中的变量未正确测量时,就会发生测量误差。此假设在逻辑回归中很重要,因为测量误差会导致估计值有偏差、结论不正确以及模型性能下降。

什么是测量误差?

测量误差是指变量的真实值与观测值或记录值之间的差异。测量误差可以是随机的(非系统性的)或系统性的。

  • 随机误差:这种类型的错误是不可预测的且无规律变化。它可能是由临时因素(如受访者疲劳或环境噪声)引起的。
  • 系统误差:这种误差以相同的方向持续发生,通常是由于测量设备或过程中的缺陷造成的。例如,有缺陷的秤总是高估体重,或有偏差的调查问题导致回答不准确。

为什么几乎没有测量误差很重要?

  • 准确的参数估计:自变量中的测量误差可能导致参数估计有偏差且不一致,从而难以确定预测变量与结果之间的真实关系。
  • 模型有效性:如果因变量的测量存在误差,则会影响逻辑回归模型的有效性,导致预测和结论不可靠。
  • 统计功效降低:测量误差会增加估计值的方差,降低检测显著效应的统计功效。

测量误差的后果

当数据中存在显著的测量误差时,可能会出现几种问题:

  • 衰减偏差:系数趋向于 0 偏差,导致预测变量效应大小的低估。
  • 标准误差膨胀:系数的标准误差增加,导致置信区间更宽,估计值更不精确。
  • 误分类:因变量中的错误可能导致误分类,从而降低模型预测的准确性。
  • 检测测量误差

    检测测量误差可能很困难,但有几种方法可以提供帮助:

    • 可靠性测试:使用 Cronbach's alpha 等测试来评估测量仪器的可靠性。
    • 验证研究:将测量值与黄金标准或参考测量值进行比较以评估准确性。
    • 重复测量:为同一变量收集多个测量值,并检查测量值的一致性。

    处理测量误差/

    如果检测到测量误差,请考虑以下方法:

    • 改进测量工具:使用更精确、更准确的设备或技术来减少误差。对于调查,请确保问题清晰明确。
    • 使用统计技术:应用误差变量回归或结构方程模型等技术来考虑分析中的测量误差。
    • 数据清理和验证:定期清理和验证数据以识别和纠正错误。使用交叉验证技术检查数据的完整性。
    • 收集额外数据:增加样本量以减轻随机测量误差的影响。多次测量可以平均掉随机误差。

    示例场景

    考虑一项研究,该研究旨在检查体育活动与患某种疾病的可能性之间的关系。如果体育活动是通过自我报告的调查来衡量的,由于回忆偏差或社会期望偏差,可能会存在显著的测量误差。为了解决这个问题,研究人员可能需要使用加速度计等客观测量工具来获取更准确的数据。

    7. 加法性

    逻辑回归中的加法性假设指出,自变量对因变量对数几率的影响是加性的。这意味着多个自变量的组合效应是它们个体效应的总和。理解和确保加法性对于逻辑回归模型的正确解释和可靠性至关重要。

    什么是加法性?

    加法性意味着每个预测变量对结果的影响独立于其他预测变量,并且可以累加。

    为什么加法性很重要?

    • 可解释性:加法性允许对系数进行直接解释。每个系数代表在其他变量保持不变的情况下,因变量对数几率的变化,对应自变量变化一个单位。
    • 模型简洁性:加法模型更简单、更易于理解。它假设预测变量的组合效应在对数几率尺度上是线性的。
    • 预测准确性:确保加法性可以带来更准确的预测,因为它有效地模拟了预测变量与结果之间的关系。

    违反的后果

    如果违反了加法性假设,可能会导致一些问题:

    • 估计值偏差:估计的系数可能存在偏差,导致对变量之间关系的结论不正确。
    • 模型拟合不良:模型可能无法很好地拟合数据,从而导致预测性能较差。
    • 误解:如果预测变量的组合效应不是完全加性的,则可能会误解其效应。

    检测非加法性

    要检查非加法性,可以:

    • 检查残差:绘制残差与预测值或每个自变量的关系图。非随机模式可能表明存在非加法性。
    • 交互项:在模型中包含交互项以检查非加性效应。如果交互项具有显著性,则表明一个预测变量的影响取决于另一个预测变量的值。
    • 非线性关系:绘制每个预测变量与结果对数几率之间的关系图。非线性模式也可能表明需要进行变换或包含交互项。

    处理非加法性

    如果检测到非加法性,请考虑以下方法:

    • 包含交互项:将交互项添加到模型中,以捕捉两个或多个预测变量的组合效应。
    • 变换变量:对自变量应用变换,以获得对数几率尺度的线性关系。常见的变换包括对数、平方根和多项式变换。
    • 使用非线性模型:考虑使用非线性模型,例如广义加法模型(GAM),它们允许预测变量与结果之间存在灵活的关系。

    示例场景

    假设您正在研究年龄和收入对购买产品的可能性。如果年龄对购买行为的影响取决于收入,那么没有交互项的加法模型可能不够。

    8. 独立于无关选项 (IIA)

    独立于无关选项 (IIA) 假设特别适用于多项逻辑回归的上下文,其中因变量有多个类别。但是,理解此假设对主要使用二元逻辑回归的人也很有用,因为它有助于理解更复杂模型的限制和结构。

    什么是 IIA?

    IIA 假设指出,在因变量的类别之间进行选择的几率独立于其他类别是否存在。换句话说,选择一个选项相对于另一个选项的相对几率保持不变,而不管存在哪些其他选项。

    例如,假设您有 3 种交通选择:汽车、公共汽车和摩托车。根据 IIA 假设,如果删除或添加摩托车选项,选择汽车相对于选择公共汽车的几率不应改变。

    为什么 IIA 很重要?

    IIA 至关重要,因为它确保了模型参数的一致性和可解释性。如果违反此假设,模型的预测和预测的预测变量效应可能会变得不稳定和不可靠。

    违反的后果

    当 IIA 假设被违反时,可能会导致一些问题:

    • 不一致的参数估计:模型系数可能变得不一致,导致难以从分析中得出有意义的结论。
    • 误导性预测:预测的概率可能不准确,导致基于模型的选择决策不佳。
    • 不正确的几率比:如果 IIA 假设不成立,几率比(衡量选择一个类别相对于另一个类别的相对可能性)可能会产生误导。

    检测 IIA 违反

    有几种方法可以帮助检测 IIA 假设的违反情况:

    • Hausman-McFadden 检验:此检验将完整模型(包含所有类别)的预测系数与受限模型(删除一个类别)的预测系数进行比较。系数的显著差异表明 IIA 假设被违反。
    • 直观检查:考虑您的因变量的选择背景是否符合 IIA 假设。例如,如果一个选项的引入或删除可能显著改变其他选项的相对选择,则 IIA 可能会被违反。
    • 嵌套 Logit 模型:使用嵌套 Logit 模型作为替代,该模型通过考虑相似选项的组合来放宽 IIA 假设。

    处理 IIA 违反

    如果您发现 IIA 假设被违反,请考虑以下方法:

    • 嵌套 Logit 模型:此模型将相似的选择分组到嵌套中,允许组内不同的相关性级别。此方法考虑了在嵌套中选择选项的相对几率可能与嵌套之间的几率不同。
    • 多项 Probit 模型:与多项逻辑回归不同,多项 Probit 模型不假设 IIA,并允许选项之间存在相关误差项。
    • 特定于选项的变量:包含特定于某些选项的变量,这有助于解释违反 IIA 假设的选项之间的差异。
    • 数据重构:重新评估因变量的类别,以确保它们清晰且有意义。有时,合并或重新定义类别可以缓解 IIA 违反。

    示例场景

    设想一项营销研究,分析消费者在不同品牌产品之间的选择:品牌 A、品牌 B 和品牌 C。如果引入新的品牌 D 显著改变了选择品牌 A 相对于品牌 B 的几率,则 IIA 假设被违反。在这种情况下,嵌套 Logit 模型可能适用,根据共享特征将相似的品牌分组。

    结论

    逻辑回归是一种强大且广泛使用的二元分类问题技术。然而,为了确保其有效性和结果的可靠性,理解和验证其假设至关重要。通过仔细检查二元结果、观测的独立性、logit 中的线性关系、无多重共线性、充足的样本量、最小的测量误差、加法性以及(在适用时)独立于无关选项,研究人员和从业人员可以自信地将逻辑回归应用于他们的数据分析任务。