工具变量:Shock-IV中预处理平衡的必要性

发布时间:2022-05-27 阅读 641

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:韩杰 (暨南大学)
邮箱han_ovetk@foxmail.com

编者按:本文主要摘译自下文,特此致谢!
Source:Atanasov V, Black B. The trouble with instruments: The need for pretreatment balance in shock-based instrumental variable designs[J]. Management Science, 2021, 67(2): 1270-1302. -PDF-


目录


1. 引言

越来越多的会计和金融学者强调因果效应的识别,并且常用方法是利用看似满足因果推理的冲击。然而,当前利用冲击的实践往往忽略了处理企业和控制企业之间预处理平衡的需要——我们将这一概念定义为共同支持 (common support)、预处理协变量和结果的平衡 (balance pretreatment covariates and outcomes),以及平行预处理趋势 (parallel pretreatment trends)。

本文为 DID 作为工具变量 (Shock-IV) 时预处理平衡的必要性制定了一个检查表,其中的许多检查项目也适用于一般 DID 和非冲击的 IV 设计。

2. Shock-IV 的设计条件

因果效应 τi (对于公司 i ),等于 i 为处理组时 yi,减去 i 为控制组时 yi。对于多时期 t 有:

然而,在不同时间段,我们只观察到两种潜在结果中的一种,即 yit(ωit=1) 和 yit(ωit=0)。此处的挑战是选择偏差,即被处理的公司和控制组公司在某些方面存在差异,这些差异可能未被观察到,会对估计结果产生偏差。

本文的一个关键问题是,Shock-IV 和其他基于冲击的设计只有在尽量满足条件 (包括共同支持和协变量平衡) 时才能提供可信的因果估计,而这些条件往往存在于真正的随机实验中。Atanasov 和 Black (2016) 为良好的冲击创造了条件,我们在这里对这些条件进行改进和扩展,以便进行面板数据估计。

冲击强度 (Shock strength):在施加协变量平衡和共同支持后,冲击必须足够强,以显著改变企业行为。

外生冲击 (Exogenous shock):这种冲击来自于我们所研究的环境之外。接受处理的公司没有选择是否接受处理,也不能通过改变他们的行为来预测冲击。冲击后果预计是永久性的,没有理由相信潜在的结果或哪些公司接受处理取决于未观察到的企业特征。

单向成立条件 (Only-through condition):冲击对结果的影响只能通过冲击来体现。同时期内没有其他冲击对处理组和控制组造成不同影响。在 IV 分析中,如果预期冲击会通过一个特定的工具变量影响结果,那么冲击一定只会通过该变量影响结果。

预处理的平衡 (Pretreatment balance):只有当被处理的公司和控制组的公司在冲击前是相似的,外生性和单向成立条件才是可信的,我们称之为预处理平衡。这种平衡有几个组成部分:

  • 近似随机分配 (As if random assignment):这种冲击应该会以一种近似随机的方式,将公司分为 “处理” 和 “控制” 两类;
  • 共同支持 (Common support):在相关的协变量上,被处理公司和控制组公司之间应该有共同的支持。有些不完善的支持可以通过样本修整来解决;
  • 协变量的平衡 (Covariate balance):冲击前被处理和控制组公司的相关协变量和结果变量应该具备类似处理值 (称为协变量平衡);
  • 平行预处理趋势 (Parallel pretreatment trends):处理组公司和控制组公司在预处理期间的因变量和核心协变量应遵循平行的趋势。对于冲击与另一个变量相互作用的三重差分设计,应该对相关的双重差分和第三个变量中有平行的预处理趋势。

3. IV 强度与系数放大

即使单向成立条件 (Only-through condition) 完全满足,IV 估计也可能是有偏的。如果 IV 较弱,标准误通常是向下有偏的 (Cruz 和 Moreira,2005)。常用的 IV 强度经验法则是第一阶段 F 统计量大于 10 (Stock 等,2002)。特别是当第一阶段不强时,IV 系数容易出现放大 (blowup) 问题,两阶段最小二乘 (2SLS) 系数远大于普通最小二乘 (OLS) 系数。较高的 2SLS/OLS 系数是 IV 失效的警告信号,比率越高,警告就越强烈。

4. DID 与 Shock-IV 的相似处

使用相同的冲击,DID 和 Shock-IV 之间有密切的联系。DID 有几个优点,它只依赖于较弱的假设。DID 估计了冲击对所有受冲击的公司的处理效应。相比之下,Shock-IV 要求研究者指定一个渠道,它假设冲击只通过这个渠道影响结果,并仅为受冲击影响行为发生变化的公司提供一个估计结果。DID 还迫使研究人员使用前后平衡的样本,并附加有利的测试,包括检查平行预处理趋势和虚构测试,如评估安慰剂冲击的影响,以及实际冲击是否能预测安慰剂的结果。

然而,IV 也有优点。必须表现出第一阶段,即冲击必须显著影响工具变量。相比之下,DID 设计隐蔽的保留了第一阶段,并让作者假定第一阶段可能不存在。IV 的设计设定了一个特定的渠道,可以更容易地评估经济规模是否合理。因此,将两种设计应用于同一研究是有价值的。如果冲击较强,两者应具有相似的统计强度。

平行趋势假设在 DID 中很出名,但在 Shock-IV 研究中就不那么出名了。要了解为什么两种设计都依赖于这种假设,则有必要考虑两者的相似性。如果测量的变量是二元的,DID 设计估计了冲击对所有受冲击的公司的平均影响。相比之下,IV 为受冲击影响行为发生变化的公司提供了一个局部平均处理效应 (LATE)。如果没有协变量,IV 分析的 2SLS 系数可以表示为 Wald 估计:

如果我们加入协变量,2SLS 和 Wald 估计将略有分歧,但对于一个近似随机分配的工具变量应该是相似的。对于一个强工具变量,统计强度也应该类似:β^2SLS 和 δ^DID 可以有显著不同的系数和标准误差,但应该有类似的t统计量。如果工具变量不强,β^2SLS 的 t 统计量通常会低于 δ^DID

5. 识别有效 Shock-IV 的检测清单

本文提供了一个行动清单,用于检测 Shock-IV,以确保预处理平衡。在这里,我们提供了以下扩展的检查表。大多数步骤也适用于一般 DID 和非冲击 IV 设计,有些只适用于有面板数据集的情况。

  1. 在研究设计部分评估 IV 的有效性。许多步骤都可以在隐藏结果的情况下完成,而在研究设计阶段进行该项工作,可以防止其他研究者的偏见。
  2. 评估并谨慎地保护外生性。阐述为什么冲击会产生看似随机的处理组分配,无论是直接的还是以协变量为条件的。
  3. 检查共同支持。检查对潜在相关的预处理协变量和预处理结果的共同支持,一般的支撑通常可以通过调整样本来保证,严重的缺失可能需要放弃该研究。
  4. 检查协变量的平衡。检查冲击前平衡对潜在相关的预处理协变量和预处理结果,并在协变量平衡表中报告结果 (文本或附录)。适度的不平衡通常可以通过平衡的方法来改善。严重的不平衡可能需要放弃该研究。
  5. 使用广泛的协变量来评估共同支持,并改善处理前的平衡。如果冲击确实是干净的,使用广泛的、潜在相关的协变量应该不会对估计产生很大影响。如果冲击不那么干净,广泛的协变量可以限制违反外生性和单向成立条件的原因。一些协变量可能会降低 IV 强度,这通常表明它们是需要的,而不是忽略它们的理由。
  6. 谨慎的分配处理组。至少需要以协变量为条件的近似随机的分配,一个理想的 IV 将产生类似的处理组和对照组,而不影响协变量。
  7. 评估预处理平行趋势。使用 DID 方法评估在预处理期间是否存在平行趋势。在数据允许的情况下,可以在很长一段时间内进行预处理。如果研究设计使用交互变量,检查交互的两个组成部分的平行趋势。对于轻度的不平行,寻找额外的协变量,可以减少不平行趋势的程度。严重的不平行可能需要放弃研究。
  8. 谨慎评估单向成立条件。确保处理前的平衡有助于保护这种条件。
  9. 修整平衡后确认 IV 强度。许多冲击 IV 强度在调整和平衡后会减弱。在这些步骤之后呈现第一阶段 IV 的结果,强度不足往往需要放弃这种调整。
  10. 提供 OLS、Shock-IV 和 DID 估计。目前,对于同一样本,尽量提供 OLS,DID 和 IV 估计 (两个阶段)。评估 IV 系数大小在经济上是否合理。
  11. 评估 IV 系数放大。如果 IV 系数比 OLS 系数大得多,既要保证 IV 系数的经济合理性,又要解释为什么更大的 IV 系数是合理的。
  12. 图像展示结果。冲击时期的前后只是一个开始,但往往还可以做得更多。
  13. 进行安慰剂测试。具体细节将根据设计而异,但安慰剂试验通常是可用的。我们可以改变冲击的时间;测试冲击是否在时间上向后预测,如果冲击依赖于一个阈值,改变阈值;测试安慰剂的结果。
  14. 不要混合 Shock-IV 和 non-Shock IVs,即不要把冲击 IV 和非冲击 IV 混在一起。我们很难找到一个有效的 Shock-IV。避免因寻找不同的 IV 而带来麻烦,特别是研究不是基于冲击;
  15. 正确构建基于交互的 IV。不要将 Shock-IV 构建为冲击虚拟变量与内生协变量之间的相互作用。
  16. 评估处理效果是否合理。普遍的说,评估观察到的处理效果的经济规模是否在理论上是合理的,是否与已知的相关研究主题的的其他文献相一致。
  17. 评估第一和第二阶段的影响是否会出现在相对冲击的时间。一些效果应该立即出现。例如,在一个有效市场中,股价应该对冲击做出快速反应。随着时间的推移,随着企业对冲击的反应,其他因素应该会出现。平行趋势图表显示了处理效果如何随时间变化,在这里也很有用,也可以用来评估预处理趋势是否平行。
  18. 在附录中报告稳健性测试。不要写 “如果我们做某事,结果是相似的” 看似很不错,但实际上没有做某事;或者只记得在一段时间以前使用不同的规范和稍微不同的示例做过类似的事情。
  19. 分享你的数据。除了专有数据,所有研究人员都应该准备好满足对他们的数据和代码的需要。相反,拒绝分享数据甚至你的样本公司名单,应该被视为不可接受的。

6. 总结

公司金融和会计研究中对因果推理的日益强调导致了对 IV、冲击,有时是 Shock-IV 的日益依赖。Larcker 和 Rusticus (2010) 解释了为什么在公司财务和会计研究中使用的大多数非冲击 IV 是有缺陷的。本文提供的证据表明,表面良好的 Shock-IV 往往不能支持有效的因果推理,因为它们不能满足预处理平衡的需要,包括共同支持、协变量平衡和预处理平行趋势,我们的清单中的步骤经常没有被执行。

作为研究人员,也许我们能做的最好的事情就是改进我们的因果推理方法,同时对新方法保持怀疑。例如,大多数早期的 DID 论文没有聚类标准误。Bertrand 等人 (2004) 解释了为什么这是有问题的,Petersen (2009) 表明,聚类的替代方法对面板数据不起作用。我们希望本文被理解为改进因果方法的努力。考虑 Shock-IV 设计的研究人员应确保冲击满足良好冲击的条件,包括前处理平衡的需要,而且 IV 是对冲击的合理使用。

7. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh iv, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh