Stata:基于IV的因果中介分析-ivmediate

发布时间:2022-04-08 阅读 4155

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:关欣 (南开大学)
邮箱gx0222@126.com

编者按:本文主要摘译自下文,特此感谢!
Source:Dippel C, Ferrara A, Heblich S. Causal mediation analysis in instrumental-variables regressions[J]. The Stata Journal, 2020, 20(3): 613-626. -PDF-


目录


1. 简介

在传统的中介效应分析框架下,假设处理变量 T 和中介变量 M 是外生的。如果处理变量 T 和中介变量 M 是内生的,那么是否能够以及如何进行中介效应分析呢?

Becker 和 Woessmann (2009) 在研究宗教对经济增长的促进时,认为宗教通过促进阅读提高了识字率,进而实现了人力资本积累,促进了经济增长。不过跨地区宗教传播和地区识字率可能不是随机的,因此需要对宗教通过提高识字率间接影响经济增⻓进行因果中介分析。

针对上述问题,Dippel 和 Ferrara (2020) 提出了 ivmediate 命令。该命令可使用一个工具变量同时进行因果效应和中介效应分析。本文的目的正是介绍基于 IV 的因果中介分析命令 ivmediate

2. 理论背景

传统中介分析中假设 T 的分配具有随机性,其分析框架为:

为了确定间接效应解释了总效应 (TE) 的哪一部分,必须进行中介分析,将 T 对 Y 的 总效应 (TE) 分解为通过 M 产生的间接效应和不通过 M 产生的直接效应。其中,总效应 (TE) 为 δYT,间接效应为 βYM×βMT

注:方框表示可观测变量,圆圈表示不可观测变量,箭头表示因果关系,虚线表示相关关系。

上图为变量关系路径图。模型 1、2 为标准的 IV 模型,模型 1 估计 T 对 M 的因果影响,模型 2 估计 T 对 Y 的因果影响。其中 T 是内生的,引入外生变量 Z。模型 3 是具有工具变量 Z 的因果中介模型。方程 M=fM(T,ϵM) 和 Y=fY(T,M,ϵY) 意味着 T 通过 M 间接和直接导致 Y。因此,在 Y 对 T 和 M 的回归中,有两个潜在的内生变量,但只有一种工具变量 Z 解决其内生性。

模型 3 中的因果关系可以写为:

上述可表示为 X=Ψ×X+ϵ,即:

观测变量 X 的协方差矩阵 ΣX

令 Σϵ 表示未观测到的误差项 ϵ 的协方差矩阵,因为 Z 是一个工具变量,这意味着 ϵZ 在统计上独立于 ϵTϵM 和 ϵY。因此,

Dippel 等 (2020) 提出,其识别假设为 T 在 Y 对 T 的回归中是内生的,但内生性不能来自共同影响 T 和 Y 的混淆因素,只能来自共同影响 T 和 M 的混淆因素。形式上,识别假设为 Σϵ 中的 ρTY=0,同时允许 ρTM0 和 ρMY0

3. 估计过程

标准的 2SLS 估计如下,其中 T^ 代表 T 在第一阶段的估计值。

  • 第一阶段:T=βTZ×Z+ϵT
  • 第二阶段:M=βMT×T^+ϵM

根据 Dippel 等 (2020) 提出的识别假设 ρTY=0,产生了一个新的排除限制,允许在以 T 为条件时将 Z 作为 M 的工具变量。这意味着 βYM 和 βYT 是 2SLS 回归估计量的期望值,其中 T 为条件变量,Z 是工具变量,M 是内生变量,Y 是因变量。即 βYM 和 βYT 可以被以下 2SLS 模型估计:

  • 第一阶段:M=γMZ×Z+γMT×T+ϵT
  • 第二阶段:Y=βYM×M^+βYT×T+ϵY

其中 M^ 是第一阶段 M 的估计值。

ivmediate 估计时,其通过报告一阶段相应 F 统计量来提供弱工具变量识别测试。若需要稳健标准误,则输出结果显示 Kleibergen 和 Paap (2006) 的 F 统计量。为了校正 F 统计量,可使用 Kleibergen 和 Schaffer (2007) 的 ranktest 命令。

关于弱工具变量识别,以往的做法是要求第一阶段 F 统计量至少大于 10。下面两图展示了通过模拟在不同 F 统计值下总效应、间接效应和直接效应的系数值。其中直接效应和间接效应的真实值为 1,总效应真实值为 2。

在标准情况下,当第一阶段 F 统计值接近 10 时,估计结果趋近于真实值。

在基于 IV 的中介因果分析中,当第一阶段 F 统计值接近 30 时,估计结果才趋近于真实值。因此,基于 IV 的中介因果分析中需要一个相对更好的工具变量。

4. Stata 实操

net install st0611_1.pkg, replace  // 命令安装
net get st0611_1.pkg, replace      // 数据获取
* 命令语法
ivmediate depvar [indepvars] [if] [in], mediator(varname) treatment(varname) instrument(varname) [options]

4.1 模拟案例

ϵT 和 ϵY 服从标准正态分布,且 ϵTϵYϵM=ω×ϵT+(1ω)×ϵY 对于任何 ω[0,1]ρTM=ω,所以 ϵM 不独立于 ϵT。同理,ρMY=(1ω)ϵM 不独立于 ϵY

ϵTϵY 意味着 ρTY=0。然而,ϵM=e 则 ϵT 和 ϵY 之间存在线性关系,即 ϵT=e/ω(1ω)/ω×ϵY。因此,在 ϵM 的条件下 ϵT 和 ϵY 之间的相关性为 ρTYϵM=1。所以,在ϵM 的条件下,ϵT 不独立于ϵY

设置真实参数 βTZ=βMT=βYT=βYM=1。当错误的假定 T 和 M 是外生的,通过OLS 估计:

  • βMT=σTMσTY
  • βYT=σMMσTYσTMσMYσMMσTTσTM2
  • βYM=σTMσTY+σTTσMYσMMσTTσTM2

真实参数为 1 ,但 OLS 估计量的范围可能为 0 到 2,具体取决于误差相关性。因为 ω 越大,ρTM 越大,随着 ω 的增加,βMT 的 OLS 估计值越偏离真实值。相比之下,βYT 和 βYM 的 OLS 估计收敛到真实值 1。

* set seed for replicability
set seed 12345
* weights for the mediation error
global omega = 0.5
* model parameters
global betaYT = 1
global betaYM = 1
global betaMT = 1
capture program drop ivmedsym
program ivmedsym
    clear
    set obs 1000
    * generate error terms as described in the article
    generate e_t = rnormal(0,1)
    generate e_y = rnormal(0,1)
    generate e_m = sqrt($omega)*e_t + sqrt(1-$omega)*e_y
    * generate variables according to (1)-(4) in section 2
    generate z = rnormal(0,1)
    generate t = z + e_t
    generate m = t*$betaMT + e_m
    generate y = t*$betaYT + m*$betaYM + e_y
    * naive OLS
    regress y t
    scalar bols = _b[t]
    * ivmediate regression
    ivmediate y, mediator(m) treatment(t) instrument(z)
    scalar te = _b["total effect"]
    scalar de = _b["direct effect"]
    scalar ie = _b["indirect effect"]
end
simulate b_ols = bols b_total = te b_direct = de b_indirect = ie, reps(200): ivmedsym
. sum

    Variable |        Obs        Mean    Std. dev.       Min        Max
-------------+---------------------------------------------------------
       b_ols |        200    2.355732    .0404492    2.25768   2.454119
     b_total |        200    2.003096    .0561753   1.859572   2.117501
    b_direct |        200    1.004551    .0867107   .8003523   1.274698
  b_indirect |        200    .9985453    .0556392   .8147842   1.141245

上述模拟过程显示了 ivmediate 如何得到真实的 TE,并将其分解为直接效应和间接效应。

4.2 应用实例

在本部分,我们使用 Becker 和 Woessmann (2009) 的数据。他们研究了新教对普鲁⼠经济增长的影响,其中被解释变量为 1877 年人均所得税 (inctax),解释变量为新教徒比例 (f_prot),中介变量为识字人口比例 (f_rw)。由于新交的传播主要在 Wittenberg 周围开展,将工具变量定义为到 Wittenberg 的距离 (kmwitt)。

. use ipehd_qje2009_master
. global controls "f_jew f_fem f_young f_pruss hhsize pop gpop f_miss"
. ivmediate inctax $controls, mediator(f_rw) treatment(f_prot) instrument(kmwitt)

Linear IV Mediation Analysis
----------------------------
Outcome:   inctaxpc                                           Number of obs = 426
Treatment: f_prot
Mediator:  f_rw
---------------------------------------------------------------------------------
inctaxpc        | Coefficient  Std. err.      z    P>|z|     [95% conf. interval]
----------------+----------------------------------------------------------------
total effect    |      0.835      0.272     3.07   0.002        0.301       1.369
direct effect   |      0.083      0.083     1.00   0.316       -0.079       0.244
indirect effect |      0.752      0.291     2.58   0.010        0.181       1.323
---------------------------------------------------------------------------------
Mediator f_rw explains 90.09% of the total effect.
F-statistic for excluded instruments in
- first stage one (T on Z):   48.394
- first stage two (M on Z|T): 65.274
Excluded instruments: kmwittenberg
---------------------------------------------------------------------------------

结果显示,新教影响经济增长的总效应为 0.835,其中直接效应仅为 0.083,间接效应为 0.752,这说明新教传播所带来的识字率的上升解释了 90% 的总效应。

5. 参考文献

  • Dippel C, Ferrara A, Heblich S. Causal mediation analysis in instrumental-variables regressions[J]. The Stata Journal, 2020, 20(3): 613-626. -PDF-
  • Dippel C, Gold R, Heblich S, et al. Mediation analysis in IV settings with a single instrument[R]. Mimeo, 2020. -PDF-
  • Becker S O, Woessmann L. Was Weber wrong? A human capital theory of Protestant economic history[J]. The quarterly journal of economics, 2009, 124(2): 531-596. -PDF-

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 中介 工具, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh