线性回归2025年6月16日 | 17 分钟阅读 线性回归是一种统计方法,用于对一个标量输出和一个或多个因果因素(也称为自变量和因变量)之间的关系进行建模。当只有一个自变量时,使用回归方程;当有多个自变量时,使用回归分析。这个术语不同于多维线性回归,后者预测多个相关的因变量,而不是单个标量变量。 关系使用线性预测方程来表示,其不确定的参数值是从线性回归的信息中导出的。这类模型被称为线性模型。最常见的情况是,基于自变量(或预测变量)的值的响应的条件平均值被认为是这些数值的线性组合。线性回归,像其他类型的回归分析一样,关注的是在给定属性值的情况下响应的条件分布,而不是所有这些因素的联合分布,后者属于多变量模型的范畴。 线性回归是第一种被仔细研究并广泛应用于实际生活中的逻辑回归形式。这是因为与不确定变量呈线性关系的方程比与不确定变量呈非线性关系的系统更容易组织,而且所产生的估计技术的统计方法也更容易识别。 线性回归有广泛的应用。大多数应用分为两大类: - 如果目标是预测、预报或减少误差,线性回归可用于将统计模型与已获得的响应变量和外生变量数据集进行拟合。如果在创建了一个相当结构化的模型后,获得了没有相应期望值的新的自变量值,那么该控制器模块可用于评估其影响。
- 如果目的是研究因果变量变化导致的因变量差异,线性回归分析可用于评估响应和信息因素之间关系的强度。评估是否存在与响应完全没有线性关系的解释变量,或者找出哪些自变量子群包含关于响应的冗余数据。
线性回归技术通常采用普通最小二乘法,但也可以用其他方式设计拟合,例如通过减少另一个标准中的“差异”(如中位数平方偏差回归),或通过限制损失函数目标函数的惩罚版本(如岭回归(L2-范数惩罚)和套索回归(L1-范数惩罚))。 另一方面,最小二乘法可用于拟合非二次模型。因此,尽管“线性模型”和“最小二乘”这两个词有时可以互换使用,但它们并不等价。  在线性回归中,数据(红色)被假设为一个预测变量(y)和一个自变量(x)之间内在关系(蓝色)的任意变化(绿色)的结果。 引言一个具有n个统计单位的输入集 {yi, xi ,..., xip}i=1n 的线性回归模型意味着解释变量y和p维回归分析向量x之间的相关性是恒定的。这种关系通过误差项或误差变量ε来表示,它是一个不可控的概率分布,为回归量和因变量之间的线性关系引入了“噪声”。因此,该模型具有以下方程: yi = β0 + β1xi1 + ... + βpxip + ε = xTi β + εi, i = 1,...,n, 在这种情况下,T 表示转置,因此 xiT β 是特征向量 xi 和 β 的内积。 这n个解经常被叠加在一起,并以数学术语表示为- Y = Xβ + ε, 此处, 
 关于符号和术语的一些说明: - Y 是一个可观测值矩阵,该变量被称为回归变量、外生变量、因变量、测量变量、自变量或预测变量,yi= i=1,...,n。这个变量也被称为预测变量。但是,它不应与用符号 y^ 表示的期望结果相混淆。
- X 可以表示为一个行向量 xi 或 n 维列向量 xj 的向量,这些向量被称为回归分析、解释变量、自变量、混淆变量、输入数据、因变量或结果变量。向量 X 的另一个名称是设计矩阵。
- 通常会加入一个常数作为回归系数之一。具体来说,对于 i=1,...,n,xi0=1。相应的变量被称为截距。许多适用于线性模型的统计过程都要求存在截距。因此,即使不同的理论暗示它应该为零,它通常也会被保留。
- 如同多项式和分段外推法一样,其中一个回归系数可能是某个其他回归量或信息的非线性组合。只要参数向量是线性的,该模型就特别地是线性的。
- 值 xij 可以被解释为响应变量 Xj 的观测数据,或者是在观测因变量之前确定的常数值。
- β 是一个 (p+1) 维的参数向量,其中 β0 代表斜率因子(如果方程中包含一个;否则,β 是 p 维的)。其组成部分被称为效应或相关系数。这个参数向量的成员被理解为解释变量相对于众多自变量的微分方程。
- ε 是 εi 理想值的变量。该分量被称为标准误差、扰动项或声学项(与原型其余部分提供的“信号”相对)。它包含了除回归变量 x 之外所有解释因变量 y 的考虑因素。误差项和回归变量之间的相关性,例如它们的相似性,在开发线性回归原型时至关重要,因为它决定了有效的分析策略。
示例 假设一个情景,一个小球被向上抛到空中,然后我们在不同的时间点 ti 评估其上升高度 hi。物理学告诉我们,忽略摩擦,这种关系可以描述如下- hi = β1ti + β2ti2 + εi, 这里,1 是球的初始运动,2 等同于标准重力,而 I 归因于观测误差。线性回归可用于从观测信息中预测 1 和 2 变量。这个范例在时间上是非线性的,但在变量 1 和 2 上是线性的;如果我们选择回归量 xi = (xi1, xi2) = (ti, ti2),则该方法采用常规形式- hi = xiT β + εi 断言当与传统的估计程序一起使用时,传统的线性回归模型会产生一系列关于响应变量、预测变量及其关系的断言。已经有几种修改方法可以使这些前提中的每一个都被放宽(即,简化为更弱的版本),并且在某些情况下完全取消。实际上,这些补充使得估计过程复杂化和延长,并且可能需要额外的信息才能构建一个足够精确的模型。 使用传统估计技术的典型线性回归模型提出的主要论点如下: - 缺乏外生性
这意味着预测变量 x 可以被视为一个恒定值,而不是解释变量。这意味着自变量被认为是无误差的——也就是说,没有评估误差。然而,这个假定在许多情况下是不现实的;放弃它会导致更复杂的变量含误差系统。 - 线性
这意味着响应变量的平均值是特征(回归系数)和因变量的线性混合。值得注意的是,这个假定远没有看起来那么受限。由于回归模型被视为一个常数值(如前所述),线性只是一个参数约束。预测变量本身可以自由改变,并且可以附加相同基础预测变量的多个版本,每个版本都稍作修改。这种方法用于多项式回归,它利用线性回归将因变量估计为自变量的无界传递方程(达到指定阶数)。具有如此大灵活性的方程,如多项式回归,通常具有“过多的容量”,因为它们严重影响信息。因此,通常需要某种形式的归一化来避免估计过程中出现不合理的答案。岭回归和逻辑回归是常见的表现形式。贝叶斯线性回归,它几乎不受计算复杂性问题的影响,也可以使用。(实际上,套索回归和岭回归都是贝叶斯线性回归的子集,对回归方程使用了不同类型的概率分布)。 - 常数方差
这意味着误差的变异性与预测变量的数量无关。因此,无论响应的大小如何,对于预测的指定恒定值,响应的方差是相同的。这并非总是如此,因为一个平均值高的统计量比一个平均值低的统计量有更高的方差。例如,一个收入预计为100,000美元的个人,其投资回报很可能在80,000美元或120,000美元之间——即误差幅度约为20,000美元——而一个收入预计为10,000美元的参与者,其收入范围在10,000美元到30,000美元之间,不太可能有相同的20,000美元置信区间。异方差性是同方差性的缺失。要检验这个假设,可以评估一个残差与预测值的图表(或每个新识别的类别内的结果)是否有“扇形效应”。 实际值或三次残差与预期数量(或每个分类器)的图表可用于查找趋势或曲率。也可以进行正式检验。当存在异方差性时,使用的是一般的“平均”变异评估,而不是考虑基础变异模式的评估。这会导致估计系数的精确度降低(但没有偏差)和有偏见的误差方差,从而导致误导性的检验和范围值(在普通最小二乘法的情况下)。模型的标准误差也将不正确。 - 误差独立性
这意味着响应变量的误差彼此无关。(真正的统计独立性是比仅仅没有相关性更强的要求,通常是不必要的,但如果确定存在,可以使用。)某些方法,如修正的线性回归,可以处理相关的误差,但它们通常需要大量更多的数据,除非应用某种形式的归一化来使系统倾向于假定不相关的误差。解决这个问题的一个基本方法是贝叶斯线性回归。 - 预测变量不具有完全多重共线性
对于传统的线性回归分析技术,设计矩阵 X 必须具有一个完整的单位值 p。否则,回归模型中会出现完全多重共线性,这表明两个或多个预测变量之间存在线性关系。这可能是由于在信息中无意中修改了一个因素,使用了一个因素的线性变换返回到原始值(例如,以摄氏度和华氏度显示的相同温度测量值),或者在模型中包含了多个变量的线性积分,例如它们的平均值。如果与要评估的变量数量相比,提供的数据不足(例如,信息点少于回归因子),也可能发生这种情况。当预测变量高度相关但不是完全相关时,接近违反此规则可能会损害参数估计的准确性。 在完全多重共线性的情况下,参数向量 β 将是反可识别的——它没有特定的值。在这种情况下,只能识别特征的子集。换句话说,它们的估计只能在整个实数 Rp 的线性子域内近似。
已经开发了适用于多重共线性线性模型的方法,其中一些需要额外的假设,例如“效应稀疏性”,即大部分效应恰好为零。值得注意的是,计算上更复杂的精细预测算法,如广义线性模型中使用的算法,不受此问题的影响。 除了这些假设之外,信息的许多其他统计特征对不同估计方法的效力有重大影响: - 误差项和回归变量之间的统计关系对于评估估计方法是否具有可接受的选择质量(如无偏性和一致性)至关重要。
- 响应变量 x 的排序或条件概率对 β 的估计准确性有重大影响。抽样和推断统计是统计学中成熟的子类别,它们为以能够获得准确预测的方式收集信息提供了指导。
投影当研究中所有先前的预测变量都“保持不变”时,可以使用构建的线性回归框架来发现特定响应变量 y 和预测变量 xj 之间的关系。βj 的含义是,如果其他变量保持不变,则 xj 每变化一次,y 的预期变化——即,净现值是相对于 xj 的估计参数。这通常被称为 xj 对 y 的独特影响。另一方面,xj 对 y 的边际影响可以用线性关系或仅将 xj 与 y 关联的简单线性回归模型来确定;这种影响是函数相对于 xj 的总梯度。 在分析回归结果时,请记住,某些回归变量(如样本变量或斜率因子)可能不允许微小改动,而其他回归变量则不能保持不变(回顾引言中的例子:不可能“保持 ti 不变”而同时改变 ti2 的值)。 即使边际影响是实质性的,独特影响也可能几乎为零。这意味着另一个因子包含了 xj 中的所有数据,例如,一旦该因子被包含在方程中,xj 就不再对 y 的方差有贡献。相反,xj 的独特影响可能很大,而其边际影响基本上微不足道。如果其他因素解释了 y 的方差的很大一部分,但只是以与 xj 捕获的方式互补,则会发生这种情况。在这种情况下,将其他参数纳入模型中可以减少 y 的变异中与 xj 相关的部分,从而增强了与 xj 的整合方式。 增强功能已经开发了许多线性回归的修改版,允许放宽一般结构中的部分或全部断言。  简单线性回归是数值型解释变量 x 和实值响应参数 y 的最基本实例。多元线性回归,也称为多维线性回归,是向多个和/或四元数预测变量(用字母 X 表示)的扩展。 多元线性回归是简单线性回归的扩展,具有多个指数函数,并且是通用线性回归的一个子集,只有一个预测变量。多元线性回归的基础资产如下: Yi = β0 + β1xi1 + β2xi2 + ... + βpxip + εi 每次发现的 i = 1,..., n 我们假设在计算中有一个预测变量的 n 次出现和 p 个外生变量。因此,Yi 是预测变量的第 i 次假设,而 Xij 是第 jth 个指数函数的第 ith 次分析,其中 j = 1, 2,..., p。数字 βj 反映了估计技术,而 εi 代表了第 ith 个独立同分布的标准差。 在更广泛的多模态线性回归中,对于 m > 1 个控制变量中的每一个,都使用以下形式的一个表达式,这些控制变量包含一组相似的外生因素,因此可以同时进行评估。 Yi = β0j + β1jXi1 + β2jXi2 + ... + βpjXip + εij 包括所有由 I = 1,..., n 表示的观测值和由 j = 1,..., m 表示的所有响应变量。 几乎所有合法的回归模型都包含多个变量,并且线性回归的基本介绍通常是在各种回归模型的背景下编写的。因此,在这些情况下,因变量 y 仍然是一个向量。 通用线性模型考虑响应变量 yi 是一个矩阵而不是整数的情况(对于每个测量)。方程 E = (y|xi) = xiTB 的内在正态性仍然保持,用一个向量 B 替代传统线性回归模型的矩阵。已经开发了传统最小二乘法 (CLS) 和广义最小二乘法 (GLS) 的多维等价物。“多元线性模型”是“通用线性模型”的另一个名称。这些不应与多元线性回归(也称为“多重线性模型”)混淆。 已经提出了几种方法来解释异方差性,这意味着不同响应变量的误差方差可能会波动。例如,加权最小二乘法是一种评估线性回归模型的技术,其中响应因子具有不同的误差值,有时还带有相关的失败。异方差一致性标准差是一种更精确的方法,用于处理非重叠但可能存在异方差的误差。 广义线性模型是用于描述有限或连续响应变量的方法。它用于以下情况: - 当塑造在巨大尺度上变化的正数量时,最好由包括对数正态分布或概率分布的统计分布来解释(即使GLM不用于对数正态信息,而是仅仅使用对数函数转换因变量)。
- 当描述模拟统计数据时,例如在投票中选择特定候选人(最好使用伯努利分布来理解二元选择,或使用规范分布/多项分布来理解多向决策),其中有固定数量的机会无法实质性地请求。
- 用于表示描述性统计数据,例如在0到5的量表上进行评估,其中结果可以排列,但数量本身可能没有任何最终意义。
- 广义现有方法提供了一个可选的线性模型 g,它将响应变量的平均值与指标联系起来:E(Y)=g-1 (XB)。连接变量通常与不断增加的工作量相关,并且通常具有在(-?,?)区域的线性分类器和因变量域之间转换的影响。
GLM通常用于以下情况: - 对于摘要统计,使用泊松回归。
- 对于二进制信息,使用逻辑回归和Probit回归。
- 对于分类信息,使用多项 Probit 回归和多项逻辑回归。
- 对于有序信息,使用有序 Probit 回归和有序 Logit。
单一指数特征需要在 x 和 y 之间的连接中进行一些变形,同时在传统线性回归模型中保持线性预测器 β?x 的重要作用。实际上,在特定情况下,将 OLS 返回到来自单个系统的信息将等效于将 β 抵抗到一个比例因子。 分层线性模型(或多层插补)将信息组织成一个回归金字塔,例如A基于B,B报告给C。它常用于学术分析,例如儿童在班级中,班级在机构中,机构在行政单位中,如教育部门。 变量误差方法(也称为“测量误差方法”)扩展了基本的线性回归模型,允许解释变量 X 带有不精确性进行测量。传统的近似值因此会变得有偏差。最常见的偏差类型是吸收,这意味着效应会偏向零。 Dempster-Shafer 理论中的线性回归分析,或者特别是线性置信值,可以表示为一个部分扫描向量,该向量可以与表示观测和其他指定概率分布和相位公式的等效向量耦合。组合扫描和未扫描矩阵为生成线性回归模型提供了一种额外的技术。 线性回归的近似方法已经建立了用于线性回归中估计方法和解释的各种技术。这些方法的超级计算简洁性、封闭形式解的存在、对海量分配的刚性以及验证吸引人的统计特性(如准确性和指数可靠性)所需的基础概念,使得这些方法各不相同。 为了证明所产生的 β 是特征向量,再次进行除法以产生海森矩阵,并证明它是全局稳定的。高斯-马尔可夫定理提供了这一点。 线性最小二乘法主要包括: 最大似然估计及其他相关方法- 当常数方差的离散度已知对应于特定的威布尔分布函数组??时,可以进行最大似然评估。当 f 是一个均值为零、方差为 ? 的简单模型时,由此产生的近似值 ?? 等于 OLS 值。岭回归或其他类型的有偏计算,如套索回归,有意地将偏斜引入评估中,以限制估计的方差。当 ε 反映一个具有确定协方差矩阵的对称分布时,GLS 预测是期望最大化估计。
- 岭回归和其他类型的有偏测量,如套索回归,有意地将误差引入β的评估中,以减少估计的波动性。由此产生的估计值具有比OLS近似值更低的平方误差,特别是在多重共线性普遍存在或泛化是一个问题时。它们通常用于在给定未观测到的预测变量x的情况下,预测因变量y的数量。
- 最小绝对偏差(LAD)建模是一种比 OLS 更稳定的估计方法,因为它对极端值不太敏感(但在没有偏差时比 OLS 能力差)。对于 ε a Laplace 分散模型的最大似然估计是相似的。
其他评估方法- 贝叶斯统计的概念被应用于贝叶斯线性回归的回归分析中。置信区间被认为是随机初始化的,具有特定的概率分布。以类似于(但比)套索回归或岭回归的方式,协方差矩阵可以影响回归方程的值。此外,贝叶斯估计方法产生一个完整的后验分布,它完全描述了关于该项的不确定性,而不是一个单一的点近似值来表示相关系数的“最佳”结果。这可以用于使用平均值、中值、最大值、任何分位数或任何其他度量从后验分布中计算出“最佳”参数。
- 与条件均值回归相反,分位数回归关注的是给定X的y的条件分布。线性分位数回归分析一个特定的条件绝对值,例如隐含的中位数,作为预测变量βTx的正态分布。
- 当连接具有确定的结构时,混合模型通常用于评估线性回归连接,包括响应变量。混合模型通常用于分析需要多次测量的信息,例如纵向数据或通过抽样框架收集的数据。它们通常被拟合为具有最大似然或贝叶斯近似的随机方法。当误差被视为普通的随机变量时,所涉及的变量与多元回归平方之间存在密切关系。面板数据估计是评估此类信息的另一种方法。
- 当自变量数量大,或响应变量之间存在显著相关性时,使用主成分回归(PCR)。在第一步中,利用主成分分析最小化自变量,然后在第二步中,将减少的变量用于OLS回归模型。虽然它在现实中通常表现良好,但没有理论框架的理由说明自变量的最相关线性函数应该在预测变量的多模态分布的主导关键要素之间。分数最小二乘回归模型是PCR方法的改编,没有上述缺陷。
- 最小角回归是一种线性回归模型估计技术,旨在处理高维相关矩阵,可能具有比事件更多的混淆变量。
- Theil-Sen估计器是一种简单的弹性估计方法,它选择拟合模型的梯度作为穿过线段集合的线的梯度的中点。它具有与基本线性回归相当的经验性能特征,但对微小的干扰要稳健得多。
- 已经提出了几种稳健的估计方法,例如 ?-修剪均值方法和 L-、M-、S- 和 R-估计器。
线性回归的应用领域线性回归常用于确定生物学、社会科学和行为科学中变量之间可能的关系。它被认为是这些领域中的基本工具。
|