工具变量指南

2025 年 7 月 15 日 | 阅读 7 分钟

引言

在计量经济学和不同学科中,工具变量 (IV) 是一种统计方法,用于解决内生性问题,当解释变量与回归模型的误差项相关时,就会出现内生性问题。内生性可能导致有偏和不一致的估计,并可能由同时因果关系、测量误差或缺失元素引起。IV 方法使用与误差项不相关但与内生解释变量相关的外部工具来生成一致的估计。

相关性和外生性是有效工具的必要条件。相关性是工具通过与内生变量相关而影响自变量方差的程度。外生性确认该工具不直接影响因变量,只通过其与内生变量的联系来影响,并确保其与误差项不相关。

在社会科学、经济学和无法进行对照试验的其他学科中,IV 方法经常被采用。例如,为了识别因果关系,研究人员可以利用政策或区域差异作为工具。IV 方法在观察性研究中是一种了不起的方法,因为它使用可靠的工具,使研究人员即使在随机试验不切实际的情况下也能得出关于因果关系的结论。

有效工具的标准

  • 重要性:与内在因素的关联

内生解释变量和工具需要相关。这很重要,因为为了使工具在 IV 分析中有用,它必须能够解释内生变量中很大一部分的方差。

事实上,在回归的第一步中,内生变量已经落在工具上,这验证了这种情况。如果工具的系数在统计上显著,通常使用 F 统计量确定,则该工具被认为是相关的。如果 F 统计量小于 10,则工具可能较弱,这可能导致不可靠的估计。

  • 外生性:误差项没有相关性

主回归方程的误差项和工具不应相关。这意味着工具应该只对内生变量产生影响,而不应该影响因变量。如果存在由工具与误差项相关而引入的偏差,IV 估计就会变得不一致。

虽然检验外生性更困难,但研究人员通常利用经济理论或外部信息来支持他们声称工具满足此要求的说法。此外,当有许多可用工具时,Sargan 或 Hansen 检验等过度识别检验可能有助于确认其有效性。

实际工具变量的实例

  • 教育与收入:义务教育法

学者们经常研究教育如何影响收入。然而,内生性之所以发生,是因为人们可能根据未观察到的特征来选择教育,这些特征也影响工资,例如动机或家庭背景。

最低离校年龄和义务教育法是工具的例子,因为它们产生了与个人选择或未观察到的情况无关的教育程度差异。这些政策影响教育成就,但除了教育之外,它们对收入没有直接影响。

  • 健康结果与医疗设施可及性:出行时间

如果健康状况不佳的人更倾向于寻求医疗关注,那么在研究医疗保健可及性如何影响健康结果时可能会出现内生性,导致反向因果关系。

工具:虽然不太可能与个人的健康状况或未观察到的特征(如个人健康行为)相关,但到最近医疗设施的距离可以作为一种工具,因为它影响医疗保健的可及性(从而影响健康结果)。

  • 酒精使用及其对健康的影响:法定饮酒年龄或酒精税

研究酒精使用如何影响健康结果的一个问题是,饮酒者在未被发现的方式(例如冒险行为)上可能存在差异,这些方式也影响他们的健康。

工具:研究人员经常使用最低适用饮酒年龄或酒精税作为工具。尽管这些政策影响酒精消费,但它们除了增加酒精消费外,对健康结果没有直接影响。

  • 女性劳动力供给与生育:双胞胎出生

在分析女性劳动力市场参与与生育之间的联系时,可能会出现内生性,因为女性生育子女的决定可能会受到其经济稳定或职业目标的影响。

工具:因为双胞胎出生会突然增加家庭规模,所以它们既是一个自然实验,也是一个工具。这种子女数量的随机增加对劳动力供给产生影响,独立于母亲最初的职业愿望。

  • 移民循环:过去的移民趋势

如果选择移民的人具有独特且未被观察到的特征(例如抱负或技能),这些特征也影响他们的工资,那么在分析移民的经济效益时,内生性可能会成为一个问题。

工具:过去的移民模式,例如移民潮或定居政策,可以作为工具。例如,研究人员可以利用政府定居政策或与特定移民路线的接近度作为工具,这些工具影响移民选择,但除了移民之外,并不直接影响工资。

工具变量的局限性和困难

  • 找到合适的工具

找到符合外生性和相关性要求的有效工具可能很困难。一个合适的工具需要与结果方程的误差项不相关(外生性),并且与内生变量高度相关(相关性)。这些工具很少见,识别它们通常需要独创性和深入的学科知识。在某些领域,例如社会科学或政策分析,可能没有那么多可用的自然事件或政策变化作为工具,因此寻找合适的分析工具可能很困难。

  • 弱工具

如果工具与内生变量的关联性很差,则被认为是“弱”工具。弱工具产生的错误和有偏估计会导致 IV 结果不可靠。通常使用第一阶段回归获得的 F 统计量来识别这个问题;小于 10 的值表示可能存在弱点。此外,来自劣质工具的膨胀标准误差可能导致统计功效降低和置信水平扩大。这通过增加不确定性并损害 IV 估计的准确性来降低结果的稳健性。

  • 工具的有效性检验

外生性检验比工具相关性检验更困难,后者非常简单。当有许多工具可用时,研究人员被迫依赖理论原因或过度识别检验(例如 Sargan 或 Hansen 检验)。然而,这些检验可能无法始终提供明确的有效性证据。由于工具的有效性通常依赖于无法检验的假设并需要大量的外部信息,因此使用可能无法完全满足外生性标准的工具的风险更大,这可能会扭曲结果。

  • 解释问题和有限的外部有效性

局部平均处理效应 (LATE) 通常由 IV 估计提供,这与受工具影响的人群的特定子集相关。这可能会限制研究结果对更大人群的适用性。由于 LATE 解释,很难得出更普遍的结论,这表明计算出的效应可能无法准确反映整个人群的平均处理效应 (ATE)。因此,IV 估计很有用,但它们可能并不总是影响研究人群之外的政策或结果。

  • 偏见和不一致的可能性

如果工具存在缺陷(例如,违反了外生性),IV 估计可能仍然存在偏见和不一致。在某些情况下,由于使用有缺陷的工具而导致的偏见可能比最初内生性问题导致的偏见更严重。此外,工具本身的测量误差有时可能会发生,从而增加偏见并使研究变得更加困难。为了避免这些陷阱,研究人员需要谨慎行事并严格评估他们的工具。

结论

内生性是指解释因素与误差项相关并产生有偏估计的情况,可以使用工具变量 (IV) 方法在计量经济学中解决。IV 方法通过使用一个外部变量(称为工具)来隔离因果影响并提供一致的估计,该变量满足相关性(与外生变量相关)和外生性(与误差项无关)的要求。

使用广义矩法 (GMM) 和最流行的方法两阶段最小二乘法 (2SLS) 等复杂技术可以在各种经验环境中估计因果效应。弱工具可能会产生不正确的数据,并且可能很难获得合适的工具。此外,IV 估计有时只给出局部平均处理效应 (LATE),这限制了结果的广泛应用。