工具变量法:IV估计的信与不信

发布时间:2022-03-03 阅读 4803

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:肖蕊 (上海交通大学)
邮箱1327536202@qq.com

编者按:本文主要摘译自下文,特此致谢!
Source:Lal A, Lockhart M W, Xu Y, et al. How Much Should We Trust Instrumental Variable Estimates in Political Science? Practical Advice based on Over 60 Replicated Studies[J]. Practical Advice based on Over, 2021, 60. -PDF- -Video-


目录


工具变量法 (IV) 是检验因果效应的重要识别策略,但其使用往往需要较为严苛的假设条件。

Apoorva Lal,Mac Lockhart,Yiqing Xu 和 Ziwen Zu 四位学者围绕 IV 方法的使用,复现了 2011-2020 年三本政治学顶尖期刊上发表的 61 篇文章的相关结果,并指出了现有研究存在的问题。进一步地,为了提高研究的可信度,作者建议研究者们在实践中使用 zero-First-stage 检验和 local to zero 步骤。

接下来我们对该研究的内容进行简要介绍。

1. 介绍

在社会科学研究中,IV 是用于检验因果关系的常见方法。不过,有研究者质疑 IV 估计是否真的揭示了因果效应。具体地,当原始的 OLS 估计被认为高估了真实结果时,使用 IV 方法甚至会得到更大的系数。对于这种情况,常见的解释思路可以参考 LATE 框架的处理效应异质性。但是当 OLS 和 IV 估计系数在数值上差距过大时,难免会让人联想排他性假设可能并不成立。

基于三本政治学顶尖期刊上的论文复现结果,作者发现既有研究中存在三类问题:

  • 首先,较大比重的研究要么没有报告第一阶段 F 值,要么计算方式存在问题,这将导致弱工具变量问题;
  • 其次,复现的多数研究结果都依赖于经典渐进标准误,这可能严重低估不确定性,并导致过度拒绝原假设;
  • 最后,在政治学研究中,IV 得到的估计系数在数值大小方面经常比 OLS 大得多。这也是最难解决的问题。作者推测这种情况的出现是由于弱工具变量问题和排他性假设不成立一同导致的。

2. 理论回顾

IV 估计的基本原理:为了检验 x 对 y 的影响,使用工具变量 z 分离出 x 中的 “外生性” 变动部分,也就是说 x 中与潜在混淆因素不相关的变化。

IV 估计的基本假设。正如下图所示,IV 估计方法依赖于两个关键识别假设:

  • z 和 x 相关,这个假设是可以进行检验的;
  • z 和误差项 ε 不相关,也就意味着 z 的分配是准随机的。除了通过 xz 不存在直接影响 y 的其他渠道 (排他性假设)。

2.1 IV 估计策略

在施加一系列参数假设后,我们定义如下的方程组:

其中,yi 是观测单位 i 的结果变量,xi 是处理变量,zi 是 xi 的工具变量,β 是我们感兴趣的变量,它度量了 (恒定的) 处理效应。

两个方程中的误差项 εi 和 vi 可能是相关的。xi 和 εi 之间的相关性使得 OLS 回归得到的估计系数不再具有一致性。这类内生性问题可能是由以下因素引起的:

  • 同时影响 yi 和 xi 且无法观测的遗漏变量;
  • xi 的测量误差;
  • 互为因果,即 yi 反过来影响 xi

IV 方法通过利用 zi 获取 xi 的外生变化部分解决了这个问题,我们利用第一阶段的方程替换结构方程中的 xi 可以得到如下方程:

上式可以写成:

这样 β=γ1/π1,为了获得 β,我们需要下面的假设条件:

  • 假设 1 (相关性):π10,即要求工具变量可以预测处理变量;
  • 假设 2 (排他性):ziεi。由于 εi 和 vi 可能相关,这意味着 zivi。上述成立需要两个条件:一是给定外生协变量的情况下,工具变量是随机或准随机的;二是除了处理变量,工具变量不存在影响结果变量的其他途径。

我们可以得到 2SLS 估计量:

其中,Pz=z(zz)1z。如果模型恰好识别,就有:

如果对于处理变量 xi 仅有一个,对应的工具变量 zi 也只有一个,那么 2SLS 估计量可以写成 Wald 统计量:

对于有限样本,可以发现简单 IV 估计量的期望与真实值之间存在偏误:

即使在 E[ziεi]=0 的情况下,第二项也可能不趋向于 0。这个偏误随着样本的增大而降低,而弱 IV 和过多的工具变量将会加剧偏误的程度。

推论:为什么相比于 OLS 估计量,使用 2SLS 估计量进行推断是更具有挑战性的呢?对于 β^IV 的方差估计量可以写成:

其中,σ^2 是误差项的方差估计量,Rxz2 是第一阶段的 R 方。只要 Rxz2<1,就会有 V^(β^IV)>V^(β^OLS)。工具变量与处理变量的关联程度越高,得到的 IV 估计也就越准确。

2.2 潜在问题

弱工具变量:因为IV 系数本质上是个比值,当 Cov(Z,X)0,弱工具变量问题就是一个 “分母为 0” 的问题。为了克服这个问题,传统上要求第一阶段的 F 值大于 10,且研究者需要将其明确地报告出来。近期,也有学者认为  F 值应该更高。弱工具变量会导致三个问题:

  • 第一,当排他性假设成立时,这将使得 2SLS 估计量的有限偏误趋向于不一致的 OLS 估计量;
  • 第二,2SLS 估计结果将变得非常不准确;
  • 第三,样本量不足以支持假设检验的需求,t 统计量并不服从 t 分布。

排他性假设失效:多数情况下,假设 2 是难以直接检验的,这也就需要研究者花费大量精力论述所使用的 IV 是可信的,或是采用加入控制变量的方法。由于 plimβ^IV=β+Cov(Z,ε)Cov(Z,X)。当 Cov(Z,X)0,即使对排他性假设轻度的违背都会放大等式右侧第二项的数值,导致估计结果不一致。

对于无效的工具变量, 2SLS 估计量相对于真实值的渐进偏误可能大于 OLS 估计量。为了说明这个问题,可以参考如下表达式:

其中 ρ(Z,ε)ρ(Z,X) 和 ρ(X,ε) 分别代表 Z 和 εZ 和 X,以及 X 和 ε 之间的相关性。当分母中的 ρ(Z,X) 数值很小 (弱工具变量) 时,两者的比值就会变得很大。

3. 数据和 IV 类型

3.1 数据

作者选择了 2011 年到 2020 在 American Political Science Review (APSR)、American Journal of Political Science (AJPS) 和 Journal of Politics (JOP) 上发表的研究结果进行复现。

这些文章的选取符合如下标准:(1) 对 IV 的讨论出现在正文部分且用于支持文章的某个主要观点;(2) 仅考虑使用线性模型的文章;(3) 剔除了在一个识别方程中包含多个内生变量的文章;(4) 剔除了动态面板框架下使用 IV 或 GMM 估计量的文章。

复现使用的数据来源于公开数据分享平台,如 Harvard Dataverse,以及作者个人主页,最终能够找到 70 篇文章 (61%) 的复现材料。各项研究之间的代码完整性和文档质量存在较大差异。只要能够成功复现文章中出现的一个 2SLS 点估计结果,作者就认为对应文章所做的研究是可重复的。

下表对三本期刊上相关文章的数据获得和 IV 复现情况进行了统计描述:

3.2 IV 类型

按照 Sovey 和 Green (2011),最大的一类 IV 为理论上的 (Theory) ,对于这一类 IV,作者会在研究中使用社会科学理论或是实质性知识证明相关假设的合理性。基于理论的 IV 可进一步被分为四类:地理/气候/天气、历史、某一事件引起的扩散效应、其他。

举例来说,Henderson 和 Brooks (2016) 使用选举日附近的降雨情况作为共和党得票情况的工具变量;Vernby (2013) 使用历史上的移民水平作为现今非公民居住者数量的工具变量;Dube 和 Naidu (2015) 使用美国对拉丁美洲以外国家的军事援助作为美国对哥伦比亚军事援助的工具变量。

第二大类为随机实验,这时通常可以将 “被鼓励参加实验” 视为工具变量。另一类 IV 可以被称为自然实验 (Natural Experiment) (Sovey 和 Green,2011),这一类涉及两种情况,即模糊断点方法,以及由出生日期或资格引起的政策适用方面的差异。最后一类 IV 是基于计量假设的,如使用变量的滞后期,或是对变量进行变换来满足假设条件 (比如 Bartik IV)。

具体以上分类在文中总结为下表:

4. 复现步骤和结果

4.1 复现步骤

作者的复现过程涉及如下步骤:

  • 首先,分别基于传统渐进标准误、Huber White 稳健标准误、聚类稳健标准误 (如果存在聚类结构) 以及 bootstrap 标准误计算第一阶段的 F 统计量;
  • 其次,作者基于不同类型的标准误使用 2SLS 估计量复现原始的 IV 估计结果,由此得到对应的点估计结果、标准误和 z 值。作者也估计了 OLS 模型的结果,并计算 2SLS 和 OLS 估计量的比值。

4.2 复现结果

基于复现数据,文章主要有三个主要发现:

关于第一阶段 F:14 篇 (22%) 文章没有报告该统计量;对于报告 F 统计量的研究中,10 篇 (20%) 并未因潜在的异方差问题或是聚类结构进行调整,而使用了渐进标准误;

基于 (聚类) bootstrap 标准误,有 12 项研究经过复现后得到的 F 统计量小于 10,而这些文章中有 3 篇未报告 F 值,7 篇原文中得到的 F 值大于10;当施加更严格的要求后,即 F > 104.7 后,只有 31% 的样本符合要求。

关于 2SLS 的 z 值,z=β^2SLS/SE^(β^2SLS):研究报告的 z 值聚集在 1.96 附近,对应于 5% 的统计显著水平;基于 bootstrap 标准误得到的复现 z 值小于文章报告的 z 值,报告的 z 值主要基于渐进标准误。

关于 2SLS 估计和 OLS 估计的关系:参照下图,多数研究的 2SLS 估计和 OLS 估计系数正负一致,2SLS 估计结果经常比 OLS 估计结果大得多。

我们试着探索这个比值是否与工具变量的解释能力有关。我们用 |ρ(Z,X)| 刻画工具变量的解释能力,由于 β^2SLS=β+BiasIVβ^OLS=β+BiasOLS,因而有:

其中 X^ 是第一阶段 X 的预测值。当 β 和 βOLS 符号相同时,上述不等式成立。由于|β^2SLSβ^OLSβ^OLS| 以 |ρ(Z,ε)ρ(X,ε)|1|ρ(X,X^)|为界,当排他性假设成立,即 ρ(Z,ε)=0 时, |β^2SLSβ^OLSβ^OLS| 和 |ρ(X,X^)| 理论上应不存在关联。

但在复现过程中,对于所使用 IV 并非实验生成的研究中,可以发现两者存在强烈的负相关关系;而对于那些使用实验生成 IV 的研究,这种关系变得很弱。因而,OLS 和 IV 估计差异与 IV 的解释能力是有关的。

下表列出了作者通过复现既有研究得到的主要发现。以上结果强烈地支持作者们的推断,2SLS 和 OLS 估计之间的巨大差异是由于识别假设不成立导致的,即违背排他性假设引起的偏误在弱工具变量问题下进一步放大了。

5. 诊断工具:排他性假设冲突

5.1 Zero-first-stage 检验

Bound 和 Jaeger (2000) 首先建议对工具变量无法影响处理机制的子样本进行辅助回归,这种方法被称为 zero-first-stage (ZFS) 检验。其思路在于当人们基于先验知识明确知道某个子样本的第一阶段回归结果为 0,那么如果排他性假设满足,简约式估计得到的效应大小也应当为 0。

按照如下方程组:

这时工具变量 Z 同样进入了结构方程,排他性假设等同于 γ=0

事实上这个假设也可以放宽,Conley,Hansen 和 Rossi (2012) (后文称 CHR 2012) 指出,结合研究者对排他性假设违背程度的信念,可以对 γ 的数值、范围或是分布有合理的假设。于是当使用更弱的假设 “γ ~ F” 替代 “γ=0”,β^ 的分布形式为:

当假设 γ 服从高斯分布时,即 γN(μγ,Ωγ),方程 (5.2) 就可以简化成 (5.3)。

为了选择适当的 μγ,van Kippersluis 和 Rietveld (2018) 建议使用方程 (5.1) 对 ZFS 部分 (Π 的数值被假定为 0) 进行估计,并使用估计得到的 γ^ZFS 作为 μγ。这种方法将非正式的 ZFS 检验和 plausibly-exogenous 方法结合,同时对应的 R 和 Stata 软件操作程序也是可获得的。

5.2 案例研究

在 Guiso,Sapienza 和 Zingales (2016) (后称 GSZ 2016) 中,为了探讨自治城市的经历 (free-city experience) 对当地社会资本的影响,作者们选取了 “城市在中世纪是否是主教所在地” 作为工具变量。作者认为,在控制大量地理因素后,公社组建的可能性是工具变量影响现今社会资本的唯一途径。

文章将样本划分为南部地区和北部地区进行回归。对于南部地区,由于不存在自治城市,可以推测简约式的结果是不相关的;而对于北部地区,作者预计应当会对结果变量产生影响。

为了度量社会资本,作者分别使用当地人均非盈利组织数量 (Nonprofit) 和器官捐赠组织存在情况 (Organ Donation) 作为衡量指标,下表列出了 GSZ (2016) 简约式的回归结果。

接下来作者结合这篇文章,向大家说明上述方法具体是如何操作的。先计算第一阶段 F 值,对于北部地区,使用 bootstrap 标准误得到的 F 统计量为 67.3,而南部地区对应的 F 统计量从定义上应当为 0,然后复现原文表 4 的简约式结果。

在随后的回归过程中,使用原文中南部地区的结果得到的两个估计系数 0.178 和 0.189,将其作为工具变量对结果变量的直接效应 (前文提到的 μγ)。最后得到相应的估计结果并汇报在下图中。

从图中可以发现,相比于 bootstrap 方法,传统稳健标准误低估了不确定性,且当用非营利组织情况作为结果变量时,LTZ 方法相比于原文得到的估计系数更小,标准误更大。

当结果变量为器官捐赠情况时,使用传统 2SLS 和 bootstrap 方法得到的估计结果显著不为 0,这令人怀疑排他性假设收到了违背,LTZ 方法得到的估计系数更小,不确定性更大,且置信区间包含了 0 值。

6. 结束语

在研究者基于观测数据 (考虑) 使用 IV 方法时,需要注意以下几点:

  • 想清楚使用 OLS 方法估计究竟是夸大还是低估了处理效应,是否有必要使用 IV 方法进行估计;
  • 在实验设计阶段,考虑选取的 IV 是否可以按照令人信服的逻辑对处理变量产生 (准) 随机影响;
  • 在运行完第一阶段回归后,作图比较一下 X 和 X^ 的差别,目测检验一下 IV 的解释能力;
  • 使用 bootstrap 标准误计算第一阶段的 F 统计量。如果数据存在聚类或是群体结构,使用聚类 bootstrap 方法。当 F 值足够大时再推进研究;
  • 类似地,对于 2SLS 估计量使用 bootstrap 方法获得标准误和置信区间;
  • 如果有充分理由相信 OLS 结果已经存在向上的偏误,而得到的 2SLS 估计甚至比 OLS 大 (得多) 的话,就要引起重视了;
  • 在自然实验中有总是接受者 (always takers),从不接受者 (never takers) 和依从者 (compliers) 三类主体,进行观测研究时也可以尝试划分出类似的群体。从不接受者 (never takers) 可以合理地被用作 ZFS 样本。从而我们可以使用该样本进行安慰剂检验来估计 IV 对结果变量的影响;
  • 使用 ZFS 检验的结果获得 LTZ IV 估计值和置信区间,并与原始的估计值和置信区间进行比较。

7. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh iv, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh