线性回归的假设

2024年8月28日 | 阅读 4 分钟

线性回归是一种确定一个因素如何影响另一个因素的工具。它有助于了解一个因素的变化如何影响另一个因素的变化。但是,在使用此工具之前,您必须了解基本准则。这些称为系数的准则充当线性回归的基本要素。

为了帮助读者理解线性回归的工作原理以及此规则的重要性,本文将对这些概念进行简短、直接的概述。现在,让我们从线性回归的概念开始,通过检查底部。

什么是线性回归?

线性回归是一种用于检查两个或多个变量之间关系的统计技术。它有助于根据其他变量的值来估计或预测一个变量。具体来说,此散点图中的数据点通过简单的方法识别其关系。这种方法在社会科学、科学和经济学中很有用,因为它使得量化和检查变量之间的关系成为可能。

线性回归的假设

线性回归基于一些统计假设。在建立模型之前,有必要理解这些假设。

线性回归模型总共有 7 个假设。它们是:

  • 线性模型
  • 观测值的独立性
  • 同方差性
  • 残差的正态性
  • 多重共线性
  • 自相关
  • 内生性

以下是线性回归中每个假设的解释指南

1. 线性模型

根据此图,因变量应具有线性关系。这意味着因变量的变化与自变量的变化之间存在直接关系。虽然对于非线性可以使用线性回归纠正非线性变量的使用,但违反此假设可能导致估计偏差和信息不正确,例如,如果 X 变化一定量,Y 的值也随时间变化以确定 X 的变化。

2. 观测值的独立性

根据此近似值,每个线性回归观测值都独立于其他观测值。这意味着一个观测值的显著性不影响或不依赖于另一个观测值的显著性。违反此假设可能导致自相关等问题,其中模型中的误差显示出一致的模式,从而损害回归系数的完整性。

3. 同方差性

其他因素构成了这种观点的基础。显示线性回归中的离散残差必须具有相同的位置并且是恒定或线性的。极端效应值或极端因素会导致误差的非正常差异。异方差是这种条件术语,它会影响模型的性能。基于以下事实:对于自变量的所有水平,残差的变化,或观测值与预测值之间的变化是恒定的,否则,它意味着残差分布在引导预测的变量方向上是连续恒定的。

4. 残差的正态性

此假设是基于线性回归中数据的分布而做出的。这意味着 Y 的输出值相对于模型的任何输入值 X 都必须具有正态分布。非正态分布的区间会导致信号过窄或过宽,从而使理论估计不稳定和复杂。非正态分布意味着存在极少数非正态数据点。训练后,测试数据具有正态分布,因为假定观测值均匀分布。

5. 多重共线性

当变量相互关联时,称为多重共线性。这意味着两个高度相关的变量是相关的并且具有相同的信息,这可能导致数据集中的冗余。这在线性回归中被视为一个问题。由此,数据集中的冗余可能导致模型鲁棒性的增加。因此,通过避免高度相关的特征,可以轻松处理复杂模型。

6. 自相关

根据线性回归,关系的功能形式包括模型中相关和因变量,并正确指定。当排除重要预测变量或包含不重要预测变量时,可能导致逻辑假设和错误信息。此假设定义了数据中不得存在任何自相关。

7. 内生性

此假设解释了误差项与自变量之间不能存在关系。简单来说,这意味着自变量与回归模型中的误差项不相关。然而,当发生内生性时,意味着自变量与误差项之间存在相互关系,这可能导致回归系数的偏差和不可靠估计。违反此假设的原因有多种,例如遗漏变量偏差、测量误差或同时效应。

结论

线性回归的假设构成了可靠和有意义的统计推断的基础。虽然这些假设为进行和解释回归分析提供了框架,但研究人员必须保持警惕并评估这些假设在他们的数据中成立的程度。稳健的搜索方法、疾病和敏感性评估可以帮助识别和确保这些参数的违反。