分位数回归

2025 年 1 月 5 日 | 阅读 10 分钟

在定量建模中广泛采用的统计技术是回归。研究人员用来解释或预测尺度结果的平均值的基本且常用的方法称为多元线性回归。然而,我们通常更关注尺度结果的中位数或其他任意分位数。

分位数回归对一组预测变量(自变量)和目标变量(因变量)的特定百分位数(或“分位数”)之间的关系进行建模,其中最常见的是中位数。与普通最小二乘回归相比,它提供了两个主要优点:

分位数回归不对目标变量的分布做出任何假设。

使用分位数回归时,异常值的de影响较小。

示例

家庭收入总额与食物支出百分比之间存在什么联系?恩格尔定律是一项经济学发现,即即使食品支出总体增加,随着收入的增加,用于食品的支出百分比也会减少。假设您感兴趣的不是平均食品支出。在这种情况下,您可以使用这些数据进行分位数回归,以确定多少食物支出可以支持 90% 的家庭(对于收入特定的 100 个家庭)。

统计量

单纯形法、分位数回归 Barrodale 和 Roberts、Bofinger、Hall Sheather 以及 Frisch-Newton 内点非线性优化算法的带宽、显著性水平、矩阵运算、收敛标准、回归权重、截距项、预测目标、预测残差、制表、预测图、参数估计、协方差矩阵、相关矩阵、观测值和置信区间。

分位数回归的数据注意事项

数据

只有一个因变量,并且它必须是数字。必须使用连续变量作为目标变量。作为预测变量,可以使用连续变量或分类预测变量的哑变量。运行分析需要截距项或至少一个预测变量。

假设

目标变量的分布在分位数回归中不受假设,因此不受奇怪观测值de影响。

相关技术

普通最小二乘回归和分位数分析是相关的。

进行分位数回归分析

  • 从菜单中选择
    分位数 > 回归 > 分析...
  • 在“变量”对话框中,您可以指定用于分位数回归分析的目标变量、因子变量、协变量和权重变量。对于复杂分析或大型数据集,对话框中还提供了内存优化选项。
  • 选择一个具有数字目标的变量。进行分析只需要一个目标变量。允许的变量必须是数字。
  • 如果需要,选择一个或多个因子变量。不允许存在尺度变量。
  • 如果需要,选择一个或多个协变量。不允许字符串变量。
  • 选择一个可选的回归权重变量。禁止使用字符串变量。
  • 选择内存优化选项,以处理大型数据集的复杂分析。此设置控制数据在处理过程中是存储在外部文件还是内部文件中。在进行复杂或大量数据分析时,启用此设置有助于节省内存资源。

分析师可以使用分位数回归来抛弃变量在分布的上限与均值表现相同的假设,并确定针对不同患者亚组的成本和护理质量的重要预测因子。

快速回答是,分位数回归系数的解释方式与常规回归系数相似。冗长的回答是,分位数回归系数的解释方式与常规回归系数相似。使用 hsb2 数据集,我们可以提供一些实例来展示这一点。

为了全面理解分位数回归的详细信息,首先必须理解它的含义。因为分位数回归是数据分析中利用线性回归的一个绝佳替代方案,所以定义它至关重要。然而,让我们先定义分位数和回归。

分位数是数据分布中值被均匀分割并按相同顺序排列的点。将变量分割成 100 个相等部分的分位数称为百分位数。

回归是一种统计技术,它在定量模式分析中显示数据变量回归到中值范围的倾向。它是利用数据来估计未来事件发生在中间值附近的可能性的过程。这种预测的影响因素可以是因变量或自变量。

分位数回归有什么用途?

在商业世界中,没有公司会比那些利用其数据来预测潜在的部门情景及其应对方式的公司更成功。即使是本地或小型企业也使用商业智能研究来通过数据分析增加企业收入。尽管它们的分析可能与分位数回归的解释不同,但它对商业成功至关重要。

我们将探讨分位数回归在各个领域的几个应用。这是因为需要对分位数回归的重要性给予更多关注。

分位数回归在金融和经济学中的应用

银行在进行财务评估前,会严格评估其“风险价值”模型。这些风险管理实践可以减少或消除金融行业的市场风险。重要的是,这些确定的风险模型是基于回归的分位数分析的结果。因此,银行了解影响特定分位数数据的因素。

分位数回归用于评估市场波动性和跟踪回报随时间的分布。在经济学背景下,分位数回归对许多消费者市场变量产生影响。

分位数回归在环境建模中的应用

降雨量和河流流量建模是水文学家持续关注的问题。他们的主要关注点是需要建造有助于在干旱期间减少缺水的集水区,以及建造有助于在强降雨期间有效疏导水的排水系统。这需要数据分析师进行统计分析,他们将使用分位数回归方法来识别特定可能性。

分位数回归在医学中的应用

公共卫生专家利用分位数回归来识别数据分布中导致高状况值de被忽视变量。这与医学诊断相关,其中分布的一个尾部包含特定因素。

一个例子是识别一种疾病状态,同时仔细评估一个因变量协变量,例如年龄,包括条件分布。

分位数回归在生存分析中的应用

如果您曾经遇到过一个人生存的可能性有争议的情况,就像明天的报纸头条一样,您可能会同意拥有独家数据访问权会给您提供更大的能力来提供准确的生存分析。

这包括检查特定协变量如何影响个人的生存时间。根据风险暴露程度,这可能对个人产生不同的影响。因此,您可以研究不同分位数在低、中、高风险情况下的生存时间的影响。

分位数回归在教育中的应用

教育是我们讨论的最后一个分位数回归的应用。当识别影响学生在特定考试中成功或失败率的因素时,分位数回归非常有用。在某些情况下,响应变量可能在这里是相关的。但是,您必须将数据从条件分布中取出才能做到这一点。

举例来说,有两个在考试中表现出色的学生。假设学生 A 考了 1950 分,学生 B 考了 1680 分。学生 A 表现得非常好,超过了学生 B。但是,当我们考虑他们的年龄时,可能需要关注每个人de条件分位数空间。

我们将把学生 A 的分数与同龄的孩子进行比较,把学生 B 的分数与同龄的学生进行比较。因此,我们知道导致数据分布中这种差异的因素。

分位数回归:它告诉我们什么?

分位数回归从更大的数据集中推导出特定分布的中位数,而不是线性回归,后者使用最小二乘法来计算特定分布的条件均值,同时考虑其他因素。这个中位数被称为条件中位数。

何时应该使用分位数回归?

理解分位数回归提供的机会,以理解在数据分布中出现的非规范变量所起的作用至关重要。一些变量可能表现异常,同时与可预测变量有很强的线性关系。借助分位数回归,您可以了解它们如何影响您。

因此,以下列表包含使用分位数回归的几个理由。

  1. 当线性回归的假设趋于收敛时。
  2. 当您的数据样本中存在异常值时。
  3. 在数据集中找到某个分位数的中位数。
  4. 当误差变量导致您的结果变量增加时。
  5. 如果您的残差异常。

与通常使用普通最小二乘法 (OLS) 回归估计的条件均值相比,分位数回归可以估计和分析因变量的条件分位数。换句话说,它使我们能够理解因变量的各种分位数如何适应自变量的变化。

以下是分位数回归的一些要点:

分位数:分位数是用于将数据集分割成不同组的点。例如,中位数(代表第 50 百分位)将数据分成两个相等的部分。

条件分位数:分位数回归计算条件分位数,而不是像 OLS 回归那样计算因变量的条件均值。这表明您能够理解自变量的变化如何影响变量在不同百分位数处的值。

鲁棒性:分位数回归适用于具有异方差和非正态分布数据的数据集,因为它对异常值具有鲁棒性,并且不对残差的正态分布做假设。

解释:分位数回归可以提供变量之间关系的更细微的图景,因为系数显示了分位数如何

应用:分位数回归应用于经济、金融和社会科学领域。当您想了解预测变量的影响在因变量分布的不同部分如何变化时,它尤其有用。

估计:分位数回归可以使用多种技术进行估计,例如线性规划和迭代算法。R 和 Python 中的 stats models 库都内置了执行分位数回归分析的函数。

当试图理解各种变量如何影响变量的变异性、尾部及其中心趋势时,分位数回归可能非常有帮助。通过估计分位数,您可以了解因变量的整个条件分布,这在普通线性回归只能解释部分数据时尤其有用。

当然,以下提供了关于分位数回归更详细的信息:

  1. 分位数函数:在分位数回归中,条件分位数函数估计是主要关注点。分位数函数(Q-function)代表了在给定分位数水平(0 1)下,随机变量 Y 的值低于该值的百分比。分位数回归的目标是模拟 Q(|X) 作为自变量 X 的函数。
  2. 分位数回归系数:与估计一组系数的普通最小二乘回归不同,分位数回归估计多组系数,每组对应一个不同的分位数。例如,它可以被估计,以了解变量之间的关系如何根据您在分布中的位置而变化。
  3. 解释:与 OLS 相比,分位数回归的系数解释略有不同。对于给定的分位数,自变量的系数代表了因变量分位数的变化,对应于自变量的一个单位变化。这使您能够理解预测变量如何影响分布的各个方面。
  4. 鲁棒性:分位数回归对误差分布不做强假设,并且对异常值具有鲁棒性。这在处理可能不符合 OLS 回归的正态性和同方差性要求的数据时特别有用。
  5. 应用:分位数回归可用于检查收入不平等、分析工资差异、预测财务损失以及研究教育与收入之间的关系等。它还被应用于流行病学、环境建模和其他需要理解结果分布的学科。
  6. 估计方法:有几种方法可以用于估计分位数回归模型。两种流行的方法是:
    • 当处理线性分位数回归模型时,线性规划被用于估计分位数回归。为了确定系数,必须解决一个线性规划问题。
    • 非线性分位数回归模型使用迭代方法,例如不对称最小二乘法 (ASL) 算法或检查函数方法。
  7. 软件:几款统计软件程序支持分位数回归。例如,R 中的 'quantreg' 包和 Python 中的 'statsmodels' 库都提供了执行分位数回归分析的工具。

结论

总之,分位数回归是一种统计技术,它通过专注于估计因变量的条件分位数来改进传统的普通最小二乘法 (OLS) 回归。这种方法能够更细致地理解响应变量的各个分位数与自变量变化之间的关系。关于分位数回归,您应该记住以下几点:

分位数回归计算因变量的条件分位数,提供关于分布的不同部分如何响应预测变量变化的信息。

鲁棒且无分布假设:分位数回归对异常值具有鲁棒性,并且不对残差的正态性或同方差性做假设,因此适用于各种数据类型。

解释:对于自变量的一个单位变化,分位数回归系数显示了因变量特定分位数的变化。这使得可以更精细地解释变量之间的关系。

应用:在许多领域,包括经济学、金融学、社会科学等,理解响应变量的变异性至关重要。

多个分位数:分位数回归可以同时估计多个分位数,从而提供对变量之间关系的全面理解。

估计技术:分位数回归模型可以使用各种技术进行估计,从用于简单线性模型的线性规划到用于更复杂非线性模型的迭代方法。

软件:R 和 Python 等统计软件包提供了执行分位数回归分析的工具。

最后,分位数回归是数据分析的宝贵工具,特别是在处理与 OLS 回归假设不符的数据时,或者当您想了解不同区域如何受独立变量影响时。它提供了一种强大而明智的方法来对许多领域的联系进行建模。