Stata:一般化的因果中介分析

发布时间:2022-08-29 阅读 2655

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:曹昊煜 (兰州大学)
邮箱caohy19@lzu.edu.cn

编者按:本文主要参考自以下内容,特此致谢!

  • Imai K, Keele L, Tingley D. A general approach to causal mediation analysis[J]. Psychological methods, 2010, 15(4): 309. -PDF-
  • Hicks R, Tingley D. Causal mediation analysis[J]. The Stata Journal, 2011, 11(4): 605-619. -PDF-


目录


1. 引言

因果效应的识别是社会科学研究的关键。但是以随机试验为黄金标准的因果推断只能提供一个因果效应的 “黑箱”,也就是说试验方法只能说明干预是否导致了因果关系,而不能说明如何导致了结果变量的变化。因此,机制分析在研究干预和结果变量的路径中扮演了重要的角色。

在传统的社会科学研究中,因果机制分析主要依赖于线性结构方程模型 (Linear Structural Equation Models,LSEM),由此可能引发三个方面的问题:

  • 缺少因果中介效应的明确定义;
  • 缺少关键的识别假定;
  • 难以向非线性模型拓展。

本文将介绍一种因果中介效应的一般方法,该方法明确提出了因果中介效应的定义、识别、估计和敏感性分析,并且可以广泛应用于线性和非线性模型、参数和非参数模型、连续和离散中介变量,以及多种类型的结果变量。

2. 因果中介分析的统计框架

本小节将使用反事实框架介绍因果中介分析的模型框架。与以往模型相比,该模型清晰地定义了因果中介效应,并且对参数模型具有最少的条件,以及对不同的统计模型具有统一的假设。

2.1 反事实框架

在反事实框架中,因果效应定义为潜在结果的差。令 Ti 代表二元干预变量。令 Yi(t) 代表潜在结果,例如 Yi(1) 表示个体 i 受到干预的结果变量,尽管每个个体有两个潜在结果,但是我们只能观测到其中之一。令 Yi 为实际观测值,那么对于每个个体有 Yi=Yi(Ti)

在这种设定下,个体的因果效应表示为 Yi(1)Yi(0)。由于二者只有一个可以观测,所以即使是随机试验也不能得到个体的因果效应。我们通常关心的是平均因果效应 (Average Treatment Effect,ATE),即 E(Yi(1)Yi(0))。如果再施加独立假定 (Yi(1),Yi(0))Ti,那么:

因果效应的估计可以简化为组间均值差异。除此之外,还需要假定个体之间不存在相互作用,这一点可以通过研究设计来解决,例如可以限制受到干预的个体不能来自同一个家庭。

2.2 定义因果中介效应

令 Mi 表示可观测的中介变量。由于 Mi 也会受到干预的影响,中介变量同样存在两个潜在结果 Mi(1) 和 Mi(0),记为 Mi(Ti)。接着将潜在结果定义为干预变量和中介变量的函数,即 Yi(t,m)。在研究中,可观测的结果变量为 Yi=Yi(Ti,Mi(Ti))

在个体间不存在相互作用的条件下,因果中介效应可以写为:

可以看出,因果中介效应体现了干预变量通过中介变量对结果变量的间接影响。其含义是当保持干预状态不变时,如果中介从控制条件 Mi(0) 转换为干预条件 Mi(1),结果变量会发生什么样的变化。以 δ(1) 为例,其含义为 Yi(1,Mi(1)) 与 Yi(1,Mi(0)) 的差值,前者表示干预组的结果变量,后者表示当干预组的个体具有控制组的中介变量特征时的结果变量。

同理,可以定义直接效应:

将直接效应和间接效应相加可以得到总效应:

由于潜在结果无法在个体层面直接观测,我们仍然关心的是平均因果中介效应、平均直接效应和平均总效应:

在某些情况下平均总效应可能非常小,但这并不意味着平均因果中介效应也很小,其原因可能是中介效应和直接效应异号。

2.3 顺序可忽略性假定

在因果中介分析中,推断主要依赖的假定是顺序可忽略性假定 (Sequential Ignorability Assumption)。令 Xi 表是一系列干预前的混杂因子,其取值范围是 χ。引入假定:

该假定称为顺序可忽略性假定。首先,给定可观测的混杂因素取值,干预状态是可以忽略的。其次,假定说明当干预状况和混杂因素给定时,中介因素是可忽略的。这两个假定在实证分析中都是无法直接检验的,因此需要借助敏感性分析。

2.4 非参数识别

在没有任何分布或函数假定时,使用非参数估计可以得到平均因果中介效应的一致估计。使用非参数方法有三个方面的原因:

  • 第一,使得构建广义模型成为可能;
  • 第二,可以在更弱的假定下估计因果中介效应;
  • 第三,揭示了顺序可忽略性假定不依赖于特定模型的关键特征。

非参数识别定理:当顺序可忽略性假定成立时,以下条件分布是可识别的。该定理的含义在于,当顺序可忽略性假定成立时,潜在结果的分布可以被表示为观测数据的函数。在 LSEM 中,这些条件分布全部被设定为线性形式,而在本文的方法中,可以将之推广到其他非线性情形。

3. 线性结构方程模型情形

3.1 参数乘积的因果解释

在讨论一般模型之前,我们先来看一下潜在结果框架在特例 LSEM 中的应用。考虑如下的线性模型:

在使用 OLS 估计之后,参数乘积 β^2γ^ 即为中介效应。可以证明,当顺序可忽略性假定、无交互作用假定和线性模型假定成立时,该估计量是一个因果中介效应的有效估计。LSEM 实际上是本文方法的特例,使用潜在结果符号替代 LSEM 中的变量:

当顺序可忽略性假定成立时,平均中介因果效应为 δ¯(t)=β2γ,平均直接效应为 ζ¯(t)=β3。也就是说,相对于 LSEM,本文的方法使用了更少的假定。

3.2 放松无交互效应假定

无交互效应假定意味着 δ¯(1)=δ¯(0),即干预变量和中介变量间不存在交互关系,平均直接效应和总效应也满足同样的等式。放松该假定可以将 LSEM 中的最后一个方程替换为:

此时中介关系依赖于干预状态,而因果中介效应、直接效应和总效应都会发生变化:

其中,t=1,2,一致估计量可以通过 OLS 估计系数,并使用样本均值替换 E(Xi) 得到。

3.3 与工具变量的区别

现有研究中,工具变量也是研究因果中介效应的主要方法,而该方法依赖的是另外一系列假定:

  • 可忽略性假定:{Yi(t,m),Mi(t)}Ti|Xi=x
  • 单调性:Mi(1)Mi(0)
  • 无直接效应(排他性假定):Yi(1,m)=Yi(0,m)

最后一个假定将直接效应约束为 0,也就说工具变量方法先验地排除了其他可能的因果中介,但这在社会科学的研究中通常是难以满足的。

4. 敏感性分析

正如前文所说,仅有随机分配是无法识别因果中介效应的,因此顺序可忽略性假定至关重要。由于该假定是不可直接验证的,所以需要使用敏感性分析来说明假定的合理性。敏感性分析主要基于 LSEM 中干扰项之间的相关性,即 Cov(εi2,εi3)=ρ。如果存在同时影响中介和结果变量的遗漏变量,那么干扰项间的相关性会上升。当顺序可忽略性假定成立时 ρ=0,而非零的 ρ 意味着背离假设。

我们可以将因果中介效应写为 ρ 的函数。如果对 ρ=0 的微小背离会导致因果中介效应估计的大幅度改变,那么结果可能对顺序可忽略性假定很敏感。因果中介效应和 ρ 的关系基于以下定理:考虑 LSEM 框架下的估计,如果顺序可忽略性的第二个关系不成立,即结果变量和中介变量之间存在相关性,并且有 Cov(εi2,εi3)=ρ,则平均因果中介效应为:

其中,σjt2=Var(σjt|Ti=t)ρ~=Corr(εi1,εi2|Ti=t)

该结果建立了因果中介效应与干扰项相关性之间的关联。我们在敏感性分析中需要考虑的是,当 ρ 取值为多少时,因果中介效应会消失。以下图为例:

该结果是放松无交互效应后的敏感性分析,即 δ¯(0)δ¯(1)。在左图中,当 ρ=0.165 时,因果中介效应 δ¯(0)=0,当 ρ=0.245 时,δ¯(1)=0。从置信区间上看,大约 ρ=0.09 时,δ¯(0) 的区间估计包含了 0,而 δ¯(1) 包含 0 时,大约 ρ=0.06。没有确定的准则来说明结果是否是不稳健的,但如果另一项研究中 δ¯(0)=0 的条件是 ρ=0.48,则说明上图中的示例对 ρ 更加敏感。

5. 推广到非线性模型

从 LSEM 框架向非线性模型的推广并非是简单地函数形式变化。例如当结果变量是离散形式时,Logistic 模型中的因果中介效应不再是参数的乘积形式。本文的方法适用于线性与非线性关系、参数与非参数模型、连续和离散中介和各类结果变量。

5.1 估计算法

我们观测到的一般是 Yi(Ti,Mi(Ti)),而推断的目标是反事实结果 Yi(Ti,Mi(1Ti))。以下定理说明了可以通过蒙特卡洛模拟来得到潜在结果变量 Yi(t,Mi(t)),约束为 Xi=x

为此,我们首先从建立的中介模型 f(Mi|Ti=1,Xi=x) 中抽样 Mi(t),给定中介特征,从结果变量模型 f(Yi|Ti=t,Mi(t)) 抽取 Yi(t,M(t))。前文的非参数识别定理保证了这一过程不依赖于统计模型,当我们得到了潜在结果的模拟后,就可以计算任意函数。

我们先考察参数模型中的估计算法,适用于中介或结果方程为 Probit 或 Logit 模型的情形:

  • Step1:使用观测到的结果和中介变量拟合模型;
  • Step2:从抽样分布中模拟模型参数;
  • Step3:重复以下三个步骤:
    • 模拟中介的潜在值;
    • 给定中介的潜在值之后模拟结果变量;
    • 计算因果中介效应。
  • Step4:计算统计量,例如点估计或区间估计。

该步骤可以用于任何参数模型,并且模拟表明每一步中重复抽样 1000 次就会得到稳定的结果。在非参数或者半参数模型中,可以使用 bootstrap 方法来生成估计结果:

  • Step1:对每一个自抽样样本,重复以下四个步骤:
    • 使用观测到的结果和中介变量拟合模型;
    • 模拟中介的潜在值;
    • 给定中介的潜在值之后模拟结果变量;
    • 计算因果中介效应。
  • Step2:计算统计量,例如点估计或区间估计。

5.2 五种典型的非线性模型

5.2.1 分位数中介效应

到目前为止,该方法的主要应用是平均因果中介效应。但在研究中,有时关注的是结果变量的分布特征,此时需要估计的是分位数因果中介效应。实现这一目标的方式是将 LSEM 中的第三个方程变为分位数方程,注意参数乘积并不是我们所需要的估计结果,而是需要应用非参数算法。下图为中介效应和直接效应的分位数估计示例:

5.2.2 非参数与半参数回归

在 LSEM 中,平均因果中介效应的估计依赖于一系列线性假定,当我们希望放松这一假定时,需要使用非参数或者半参数模型,这两种方式允许我们在更宽松的假定下从数据中考察真实的关系。考虑以下的广义可加模型 (Generalized Additive Model,GAM):

其中,s() 是一个光滑的非线性函数,使用非参数方法估计,在 LSEM 中,s() 被假定为线性形式。同样可以放松无交互的假定,将模型扩展为以下形式:

在非参数或者半参数模型中,相乘系数同样不是因果中介效应,使用非参数算法可以得到正确的估计。

5.2.3 离散中介与结果变量

如果中介变量是离散的,那么中介变量方程需要使用 Probit/Logit 模型,如果中介变量是多分类的,还需要使用 Order Probit 模型,尽管这些模型与线性模型非常类似,但是 LSEM 框架却不能直接应用。另一种情形下中介变量是连续的,而结果变量是离散的。首先需要定义此时的因果中介效应,再进行估计。没有协变量的模型设定为:

两个方程中的干扰项是独立同分布的,并且具有零均值和同方差性,即 Var(ε2i)=σ22 和 Var(ε3i)=σ32Yi 是潜变量,当潜变量大于 0 时,Yi 的观测值去 1,此时结果变量方程可以使用 Probit/Logit 模型。

在 Logit 模型中,平均因果中介效应和平均总效应的形式为:

其中,H() 是 γε2i+ε3i 的分布函数。在 Probit 模型中,平均因果中介效应和平均总效应的形式为:

令 α1=(α3+γα2)/σ22γ2+1 和 (γβ2+β3)/σ22γ2+1,则:

其中,Φ() 为标准正态分布的累积分布函数。通过模拟可知,与 Freedman 等 (1992) 和 MacKinnon 等 (2007) 两种估计离散结果变量的方式相比,本文的估计结果具有更好的统计性质。

在一些研究中,我们关注的是中介效应在总效应中的份额,使用如下方式计算:

可以看出,仅当分子和分母的符号相同时,该指标是有意义的。因此可以采取另一种计算方式:

5.2.4 连续处理变量

本文的方法也很容易推广到连续处理变量的情形,仅仅是符号表达会复杂化。此时个体的因果中介效应可以定义为:

当 t 是离散变量时,该等式就与本文最初的定义相同,其期望形式 E(δi(t,t1,t0)) 即为平均因果中介效应。由于 t0 和 t1 是特定的取值,因此可以选择 t0=0 为基准。基于此,可以使用一个更好的方式刻画 t1 与 0 之间的平均因果中介效应估计 δ¯i(t,t1,t0)dFTi(t)

6. Stata 范例

在 Stata 中,我们可以使用 medeffmedsens 命令进行因果中介效应估计和敏感性分析。与理论部分相同,模型设定如下: