温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh
作者:何屹 (中山大学)
邮箱:heyi35@mail2.sysu.edu.cn
编者按:本文摘译自下文,特此致谢!
Source:Imai K, Kim I S. When should we use unit fixed effects regression models for causal inference with longitudinal data?[J]. American Journal of Political Science, 2019, 63(2): 467-490. -PDF-
目录
在大多数理论检验和政策评价中,因果关系推断是极为重要的。许多研究者在使用面板数据进行因果推断时,将个体固定效应模型作为默认方法。那么,什么时候应该用个体固定效应模型来进行面板数据的因果推断呢?
对于上述问题的回答,取决于更加关注不可观测的、不随时间变化的混淆变量还是结果变量与处理变量间的动态因果关系。当我们更关注前者时,个体固定效应模型是调整不可观测的、不随时间变化的混淆变量的有效工具;而当我们更关注后者时,基于边缘结构模型 (MSMs) 的 “按可观测变量选择 (selection-on-observables)” 方法可能更有效地解释了动态因果关系。至于同时调整不可观测的、不随时间变化的混淆变量和动态因果关系,目前并没有方法可以在不增加额外假设的条件下实现。
Imai 和 Kim (2019) 的这篇文章首先对个体固定效应模型的基本因果假设进行分析,接着引入一种新的非参匹配框架,通过建立匹配估计量和加权个体固定效应估计量之间的等价关系,实现了多样的识别策略,在不存在动态因果关系的条件下调整不可观测的因素。
我们由基本的线性个体固定效应模型开始,拓展至非参框架下个体固定效应模型的因果假设。
假设一个均衡的、没有缺失的、包含
在这个模型中,个体固定效应
为了得到
由于
我们称基于 (1) 和 (2) 式的模型为 LIN-FE。通过组内去心,可以得到
其中,
系数
在潜在结果的线性假设下,
本部分中,我们在非参固定效应模型 (NP-FE) 的框架下利用有向无环图 (DAGs) 分析个体固定效应模型的基本因果假设。
我们放宽式 (1) 中的线性假设,并将式 (2) 中的均值独立扩大至统计独立,得到如下的非参固定效应模型 (NP-FE):
假设一 (非参固定效应模型):对于每个
其中,
我们使用有向无环图 (DAGs) 来考察 NP-FE 的因果假设。 DAG 可以用来表示相应的非参结构方程模型,不需要函数形式和变量分布的假设,并且允许个体影响的异质性。简便起见,图 1 的 DAG 展示了三期的因果关系,但我们假设所有时期均存在着相同的因果关系。
在图 1 的 DAG 中,黑色实线箭头表示可能存在的直接因果效应,没有箭头表示不存在直接因果效应的假设。此外,我们假设 DAGs 已包含了所有相关的、能被观测或不可观测的变量。因此,图 1 的 DAG 也假设不存在不可观测的、随时间变化的混淆变量。
通过图 1 的 DAG ,我们可以将 NP-FE 的假设一理解为以下四条假设:
接着,我们采用潜在结果框架对分配机制的假设进行说明。我们将假设 (d) 称为不存在延滞效应,用数学公式表达如下:
假设二 (无延滞效应):对于每个
我们将假设的随机化实验分配机制表达如下:
假设三 (序列可忽略性,非混杂性):对于每个
假设三意味着给定历史处理变量和
在固定效应模型中,不存在不可观测的、随时间变化的混淆变量的假设 (假设 a) 是较难放宽的。因此,我们对其他三项识别假设 (假设 b、c 、d) 进行探讨。
首先,假设 (b) 是可以被放宽的。假设过去的结果变量可以直接影响现在的结果变量,如图 2 (a) 所示,在这种情形下,过去的结果变量通常不会混淆现在的处理变量和现在的结果变量之间的因果关系,因为过去的结果变量没有直接影响现在的处理变量。
接着,我们设想一下过去的处理变量可以直接影响现在的结果变量的情景,即放宽假设 (d) 。通常来说,研究者通过将处理变量的滞后项加入模型来中解决这个问题。图 2 (b) 的 DAG 概括了上述模型:
在这个模型下,假设三依旧成立。图 1 和图 2 (b) 中的 DAG 唯一的差别是,在后者中,我们必须调整过去的处理变量,因为它们混淆了现在的处理变量和结果变量间的因果关系。
但是,我们无法同时非参调整所有过去的处理变量和不可观测的、不随时间变化的混淆变量
为了调整
因此,在实际操作中,研究者通常加入几期滞后项到模型中。然而,加入模型的处理变量滞后项的数量通常是随意选取且很少有实际证据支撑的。
最后,我们考虑放宽假设 (c) 的情形,即过去的结果变量可以直接影响现在的处理变量。如图 2 (c) 所示,这违背了假设三,因为过去的干扰项和现在的处理变量间存在着相关关系,导致内生性。
为了解决这个问题,通常会在线性个体固定效应模型中加入结果变量的滞后项:
图 2 (d) 中的 DAG 对应着 (8) 式所示的模型。这个模型的识别策略建立在工具变量的基础上。然而,每个工具变量的有效性依赖于其对结果变量没有直接因果效应的假设。在实际操作中,这些假设并没有实际证据的支撑。
总的来说,LIN-FE 和其非参数拓展形式 NP-FE 需要三项核心的因果识别假设:
由于固定效应模型只能调整不随时间变化的、不可观测的混淆变量,研究者通常在模型中加入一系列可观测的、随时间变化的混淆变量
假设四 (加入
其中,
在这个模型中,只有同期的
现在,假设
进一步地,与不存在
上述的讨论表明,无论
因果推断的重点在于如何通过比较处理组和控制组的观测值,可信地估计反事实结果。对于一个处理组观测,我们实际观测到处理状况下的结果,但是我们需要使用观测到的控制组观测的结果来推断处理组观测的反事实结果。匹配是一种非参数方法,通过找到一组与每个处理组观测相似的控制组观测来估计反事实结果。
本部分中,我们提出了一种组内匹配估计量,放宽了固定效应估计量的线性假设。尽管动态因果关系和不可观测的、不随时间变化的混淆变量间的权衡是不可避免的,放宽线性个体固定效应模型的函数形式假设可以在识别假设满足时得到更稳健的推断。
命题 1 (线性固定效应估计量的不一致性):假设
之前的讨论发现,在假设二、三下,即使
其中,$C_{i}=1\left\{0<\sum_{t=1}^{T} X_{i t}
进一步地,我们定义匹配集合
我们的匹配框架能够通过使用不同的匹配集合来实现多种识别策略。对于任意给定的匹配集合
其中,当
其中,
正如在回归模型中加入混淆变量作为控制变量可以消除模型的混杂偏差 (confounding bias) ,当根据
此时,组内最近邻匹配对应的匹配集合为:
其中,
有了匹配集合后,组内最近邻匹配估计量可以通过 (13) 式进行计算。
我们设计事前-事后 (Before-and-After, BA ) 比较方法,其中,我们假设平均潜在结果在短时间内没有时间趋势。由于 BA 还需要无延滞效应的假设,对于一个给定的个体,处理状态只变化一次时,BA 可能最为有用。在 BA 下,我们比较处理状态变化前后紧接着的两个结果。无时间趋势的假设表述如下:
假设五 (事前-事后设计):对于
其中,
在假设二和假设五下,处理状态变化前后结果的平均差异是局部 ATE 的有效估计量,即
为了在我们的匹配框架下实施 BA 设计,我们比较两段紧挨着的有着相反处理状态的时期内的观测。此时,匹配集合如下: