Stata:使用历史工具变量评估长期效应-esteta

发布时间:2023-06-08 阅读 928

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者: 黄晨晨 (厦门大学)
邮箱: chens_huang@163.com

编者按:本文主要摘译自下文,特此致谢!
Source:Casey, G., & Klemp, M. (2021). Historical instruments and contemporary endogenous regressors. Journal of Development Economics, 149, 102586. -Link- -PDF- -Replication1- -Replication2-


目录


1. 简介

在经济学研究中,内生性问题一直是一个重要的挑战。越来越多的研究使用历史工具变量来解决内生性问题。在连享会推文 IV在哪里?奇思妙想的工具变量 中也列举了通过历史因素寻找工具变量的例子。

但是,当工具变量的影响和内生变量的测量之间存在时间差距时,传统的 IV 回归并不能得到参数的一致估计。为此,Gregory Casey 和 Marc Klemp 提出了一个简单框架来估计内生变量的长期影响,并且以 Acemoglu et al. (2001PDF) 的研究为例检验这种偏差校正方法的效果。

下面,本文将详细介绍 Casey and Klemp (2021) 提出的方法,以及对应的 Stata 实操。

2. 理论基础

2.1 问题缘起

下图中展示了作者的基本思路。其中,X 代表内生解释变量,并且是时变的。 YC 代表因变量。作者用下标 H 代表历史时期,即工具变量最开始对 X 产生影响的时期。用下标 C 代表当前时期,即 YC 被测算的时期。假设 ZH 是 XH 的有效工具变量,但是 XH 未被观测。

作者认为,这张图的第一行 (忽略 AC) 在大多数情况下提供了一幅不完整的潜在动态图。原因如下:

如果有充足的理由认为在当前时期 XC 会影响 YC ,那么,通常在历史时期 XH 也会影响 YH 。如果 Y 存在持久性,或者 XH 影响 YH 的因素具有持久性,那么 XH 对 YC 的因果影响将不是由 XC 介导的。这一动态过程是复杂的,在图中用 AC 来表示。在大部分应用中,不太可能观测到 AC 的所有成分,因此,假设 AC 是未被观测的。

2.2 工具变量回归的解释

为了说明问题,作者以 Acemoglu et al. (2001) 为例进行实验。在 Acemoglu et al. (2001) 的研究中,ZH 是殖民者死亡率,YC 是人均 GDP,X 是制度。AC 可以是物质资本、人力资本、技术或文化。数据生成过程如下:

在标准微观经济学设置中使用工具变量来估计 X 的同期因果效应,YCXC=β1。假设使用 ZH,i 作为 XC,i 的工具变量,需要估计的模型如下:

考虑前文提出的框架,则 ε~i=β2AC,i+εY,i。由于反向因果关系或遗漏变量,Cov(XC,ε~)0,因此需要使用工具变量。在这里需要特别注意 AC,这是一种特殊的遗漏变量。很显然,当前的模型不能一致地估计 β1,原因如下:

虽然这显然是一个计量经济学问题,但尚不清楚 β1 是否始终是我们感兴趣的真实参数。在研究中,学者们通常认为公式 (5) 提供了有关历史因素对当代结果的长期影响的信息。因此,X 的长期因果效应 (ηYCXH) 往往是一个关键参数,可以写出以下方程:

其中,μi=εY,i+β1εXC,i+β2εA,i,所以 η=δβ1+β2γ。我们关注的另一个重要参数是 XCXH=δ ,该参数衡量 X 的历史变化的持久性。如果 δ >1,意味着内生变量在受到冲击后偏离其原始路径。如果 δ<1,意味着内生变量收敛回到原来的路径,冲击消失。

在讨论工具 ZH 的有效性时,文献集中在它外生地改变 XH 这一事实上。因此,我们提出第一个假设:

在假设下,以 ZH 为工具变量对公式 (5) 进行估计,得到:

2.3 长期效应估计

在本节中,我们将展示当未观察到 XH 时如何估计 η。为了估计 δ,我们在两个中间时间点使用 X 的度量。因此,作者对 2.2 部分的框架进行扩展,使它允许两个以上的时期:

同时,作者提出第二个假设:

这种方法要求在两个不同的时间点观测 X。作者将这些时间段标记为 T 和 TQ。根据假设,我们没有观察到 XH,这意味着 TQ>H 。现在,我们解决了 XT 和 XTQ 的值之间的关系,我们将使用它来估计持久性的程度,XCXH。要做到这一点,我们在 (9) 的基础上得到:

其中,κ~X=k=0Q1δkκXTk 是一个常数,ε~X,i=k=0Q1δkεXTk,i 是一个特定于观测的误差项。

现在考虑 IV 回归方程:

ZH 是 XTQ 的工具变量。根据 (14),估计得出:

这是在 Q 个时期内的持久性的总程度。接下来,我们转向 X 和 Y 之间的关系。得到方程如下:

其中,β~0=κXC+β1k=0CH1δkκXTk+β2κA , ϵ~i=β1k=0Q1δkεXTk,i+εXC,i+β2εA,iηYCXH=β1δCH+β2γ 。接下来考虑传统的IV回归,

与我们在第 2.1 节中的结果类似,我们可以得到:

为了计算 η ,简单地将 (17) 和 (20) 结合,得到:

3. Stata 实操

3.1 esteta 命令介绍

esteta 命令安装:

ssc install esteta, replace 

esteta 命令语法:

esteta y x2 x1 [if exp] 
   instruments(varlist) 
   t_y(real) t_x2(real) t_x1(real) 
   t_eta(real) [, controls(varlist)]

其中,

  • instruments(varlist):排除在外的历史工具变量列表;
  • t_y(varlist):因变量 y 的时间段 (例如,年);
  • t_x2(varlist):当代内生变量的后期度量 (x2) 的时间段 (例如,年);
  • t_x1(varlist):当代内生变量的前期度量 (x1) 的时间段 (例如,年);
  • t_eta(varlist):历史工具变量影响的时间段 (例如,年);
  • controls(varlist):控制变量。

3.2 esteta 命令实操

在此以 Acemoglu et al. (2001) 为例,展示 esteta 命令的使用,本部分所用的代码和数据由 Marc Klemp 提供。Acemoglu et al. (2001) 研究的是制度对经济发展的影响。其中,

  • 内生解释变量制度 avgexconst1960s 用 Polity5 dataset 中的 Constraints on the Executive 衡量;
  • 因变量 loggdp1990s 是 20 世纪 90 年代人均 GDP 自然对数的平均值,测算时间是 1995 年;
  • 工具变量 logem4_capped 是殖民者死亡率;
  • wb_*labslat 是控制变量。

首先,使用 ivreg2 进行传统 2SLS 估计:

. lxhget replication_ck_2021.zip, replace
. unzipfile replication_ck_2021.zip, replace
. use ./replication_ck_2021/sample, clear 
. ivreg2 loggdp1990s (avgexconst1960s=logem4_capped) wb_* labslat, r

Warning - collinearities detected
Vars dropped:       wb_eca wb_ssa
IV (2SLS) estimation
--------------------
Estimates efficient for homoskedasticity only
Statistics robust to heteroskedasticity
                                       Number of obs =      56
                                       F(  7,    48) =   46.80
                                       Prob > F      =  0.0000
Total (centered) SS   =  57.36099115   Centered R2   =  0.4027
Total (uncentered) SS =  4161.478487   Uncentered R2 =  0.9918
Residual SS           =  34.25940976   Root MSE      =   .7822
--------------------------------------------------------------
                |           Robust                            
    loggdp1990s |  Coeff      S.E.    z    P>|z|     [95% CI]
----------------+---------------------------------------------
avgexconst1960s |  0.433     0.135   3.20  0.001   0.167 0.698
         wb_eap |  1.269     0.354   3.59  0.000   0.576 1.962
         wb_eca |  0.000 (omitted)                             
         wb_lac |  1.069     0.207   5.17  0.000   0.664 1.474
        wb_mena |  1.751     0.405   4.32  0.000   0.957 2.546
         wb_nam |  1.354     0.441   3.07  0.002   0.490 2.218
         wb_sas | -0.492     0.554  -0.89  0.375  -1.578 0.594
         wb_ssa |  0.000 (omitted)                             
        labslat | -0.109     0.172  -0.64  0.525  -0.446 0.228
          _cons |  6.579     0.582  11.30  0.000   5.438 7.721
--------------------------------------------------------------

接下来考虑内生变量持久性:

. ivreg2 avgexconst1960s (cons00=logem4_capped) wb_* labslat, r

Warning - collinearities detected
Vars dropped:       wb_eca wb_ssa
IV (2SLS) estimation
--------------------
Estimates efficient for homoskedasticity only
Statistics robust to heteroskedasticity
                                      Number of obs =      56
                                      F(  7,    48) =   51.99
                                      Prob > F      =  0.0000
Total (centered) SS   = 207.4161495   Centered R2   =  0.1909
Total (uncentered) SS = 937.6831268   Uncentered R2 =  0.8210
Residual SS           = 167.8298014   Root MSE      =   1.731
-------------------------------------------------------------
             |            Robust                             
avgexc~1960s |  Coeff       S.E.     z   P>|z|     [95% CI]  
-------------+-----------------------------------------------
     cons00a |  0.693      0.452   1.53  0.125  -0.193  1.579
      wb_eap |  0.265      1.074   0.25  0.805  -1.840  2.370
      wb_eca |  0.000  (omitted)                             
      wb_lac | -0.147      0.936  -0.16  0.875  -1.981  1.688
     wb_mena | -1.777      0.913  -1.95  0.052  -3.566  0.013
      wb_nam |  0.503      2.570   0.20  0.845  -4.534  5.541
      wb_sas |  2.620      1.155   2.27  0.023   0.356  4.884
      wb_ssa |  0.000  (omitted)                             
     labslat | -0.251      0.277  -0.90  0.366  -0.794  0.292
       _cons |  2.618      0.492   5.33  0.000   1.654  3.581
-------------------------------------------------------------

接着,利用 test 对持久度进行 Wald Test:

.  test cons00 == 1

 (1)  cons00a = 1
           chi2(  1) =    0.46
         Prob > chi2 =    0.4964

最后,通过 esteta 计算长期效应:

. esteta loggdp1990s  avgexconst1960s  cons00,  ///
    t_y(1995) t_x2(1965) t_x1(1900) t_eta(1800) ///
    instruments(logem4_capped)                  ///
    controls(wb_* labslat)

-----------------------------------------------
    | Coeff   S.E.    z   P>|z|     [95% CI]   
----+------------------------------------------
eta | 0.144  0.279  0.51  0.607  -0.403   0.691
-----------------------------------------------

结果展示在表 1 的第三列。我们可以发现估计的长期系数 (0.144) 仅为传统 IV 估计 (0.433) 的三分之一,结果表明传统的 IV 回归高估了长期效应。之所以会出现这种情况,是因为制度不够持久 (δ<1)。因此,考虑内生解释变量的持久性对于估计长期效应很重要。

4. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 工具变量, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh