Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:张子楠 (浙江财经大学)
邮箱:zinanzh@gmail.com
编者按:本文主要摘译自下文,特此致谢!
Source:Sant’Anna P H C, Zhao J. Doubly robust difference-in-differences estimators[J]. Journal of Econometrics, 2020, 219(1): 101-122. -PDF-
目录
对于双重差分模型,最为常见的是通过设定如下交叉项的形式来估计,即通过双重固定效应方式 (two-way fixed effects,TWFE) 来估计,并用估计量
然而要用 TWFE 估计量来推断处理效应,需要满足五个假设,分别为:
对于第四和第五个假设,Sant 和 Zhao (2020) 强调其并不是双重差分估计所必须的。在只满足前三个假设时,仍旧有两种估计思路可以使用:一种是结果回归法 (Outcome Regression,以下简称 OR),另一种是基于逆倾向得分概率加权法 (Inverse Propesnity Weight Regression,以下简称 IPW)。
结果回归法 (OR 法) 来源于 Heckman 等 (1997、1998),是指根据结果变量 (被解释变量) 构建回归模型,其估计结果无偏性依赖于研究者对结果变量变异原因理解的准确程度。优点在于如果对模型结构有很好掌握的话,识别会较为准确。但问题在于如果不满足,则识别结果准确性则将会大为降低。
逆倾向得分概率加权法 (IPW 法) 来源于 Abadie (2005),是指通过根据倾向得分倒数来构建权重,再进行加权 OLS 回归,以实现类似组间随机分配的处理效果。IPW 方法的优点在于避免了直接对回归模型进行设定,一旦实现了近似随机分配的效果,就可以通过组间差分来获得政策效应估计量。但其缺点在于估计结果依赖于倾向得分计算的准确性。
对于面板数据,OR 法和 IPW 法两种回归方法估计量的表达式分别为:
其中,
从上文有关 OR 和 IPW 估计方法的介绍可以发现,两种估计方法准确性所依赖的前提并不重合,这就为同时综合使用两种估计方法来提高估计结果的稳健性提供了可能。Sant 和 Zhao (2020) 正是基于这样的思路,构建了双重稳健估计量
Sant 和 Zhao (2020) 认为,只需 OR 和 IPW 两种方法所依赖的前提有一个及以上能够满足,
注:在 Sant 和 Zhao (2020) 文章里,作者分析了面板数据和混合截面数据两种数据结构的估计。本篇推文只介绍了面板数据部分。对混合截面数据相关内容感兴趣的读者可以阅读 Sant 和 Zhao (2020)。
为了展示使用双重稳健估计量的优势,作者在文章第四节通过蒙特卡洛模拟方法比较了不同方法下估计量的差异,接下来我们先简单介绍下这部分的结果,以帮助理解双重稳健估计量的优势。在这一部分,Sant 和 Zhao (2020) 一共构建了六个估计量来比较,包括:TWFE 估计量
此外,考虑当倾向指数接近于 0 或者 1 时,IPW 估计量会变得不稳健,作者采用 Hájek (1971) 方法,构建了标准化 IPW 估计量
综上所述,我们一共有六个估计量可以比较:TWFE 估计量
接下来我们简单介绍一下蒙特卡洛模拟特征和结果。作者给出了四种不同数据生成过程 (DGP),分别模拟 OR 和 IPW 估计结果都准确 (DGP1)、只有 OR 估计结果准确 (DGP2)、只有 IPW 估计结果准确 (DGP3),以及 OR 和 IPW 估计结果都不准确 (DGP4) 这四种场景。四种数据模拟中,模拟次数都为 10000 次,真实估计系数值均为 0。
模拟结果见下表所示,其中左上部分表示 DGP1 结果,右上表示 DGP2 结果,左下表示 DGP3 结果,右下表示 DGP4 结果。表格的列标题分别表示估计值与实际值的均值偏离 (Av. Bias)、估计值与实际值的中位数偏离 (Med. Bias)、均方根误差 (RMSE)、渐进方差均值 (Asy. V)、95% 置信区间能盖真实值的概率 (Cover ),以及置信区间的长度 (CIL)。行标题分别为六个估计量。
观察上表,可有以下五个结论:
总结如下:从结论 1 可知,TWFE 估计量效力最弱;从结论2、3 和 4 可知,相对于 FE、OR 和 IPW 这三个估计量,双重稳健估计量的估计结果确实有更好的一致性。从结论 5 可知,如果 OR 和 IPW 两个回归方法的前提都不能满足,综合使用两个方法而构建的双重稳健估计量也没有更好的统计性状。
在本部分,我们将介绍如何使用 Sant 和 Zhao (2020) 提供的双重稳健估计量命令 drdid
。需要说明的是,命令只适用于两时期 DID 场景,且面板数据回归时要求不能有缺失值。当这两个约束不满足时,可选择使用 Callaway 和 Sant (2021) 提供的命令 csdid
来识别。
* 命令安装
ssc install drdid, all replace
* 命令语法
drdid depvar [indepvars] [if] [in] [{weights}], [ivar(varname)] time (varname) treatment(varname) [options]
其中,
depvar
为被解释变量,indepvars
为解释变量和控制变量;ivar(varname)
、time (varname)
和 treatment(varname)
为 DID 设置选项。其中 ivar(varname)
设置个体标识变量,time (varname)
设置时期标识变量,treatment(varname)
为 DID 标识变量,比如 0 为控制组,1 为处理组,更灵活的设置方式可进一步翻看帮助文档;[options]
可以设置两大类选项:
drimp
),这也是默认选项。此外,还有基于标准化 ipw 的双重稳健估计 (dripw
)、Outcome regression 估计 (reg
)、标准化 ipw 估计 (stdipw
)、ipw 估计 (ipw
)、调整的 ipw 估计 (ipwra
)。如果要一次性输出上述所有估计量,则可以设定选项为 all
;robust and asymptotic standard errors
。同时也可以选择 wboot
,cluster
等。
本文以 LaLonde (1986) 提供的数据 lalonde.dta 来展示 drdid
命令的用法。LaLonde (1986) 研究的内容是美国 1978 年就业培训计划政策是否会增加培训者的收入。数据来自两个部分,其中一部分来自 LaLonde (1986) 的实验数据,在数据集里用 experimental=1 标识,另一部分来自 CPS 项目的非实验数据,用 experimental=0 标识。
对于 experimental=1 的数据,又可以分为两类,一类是实验的处理组 (treated=1),一个是实验对照组 (treated=0)。数据里主要变量包括:年龄 (age)、受教育年限 (educ)、是黑人 = 1 (black)、 已婚 = 1 (married)、没有大学学位 = 1 (nodegree)、1974 年收入 (re74)、是西班牙人 = 1 (hisp)。
此外,个体标识为 id,时间标识为 year,同时以 experimental 为政策冲击个体指示变量,以 year 为政策前后指示变量 (注:这里的 year 取值只有 1975 和 1978 两年)。
接下来,Sant 和 Zhao (2020) 从 lalonde.dta 挑选一部分,巧妙构造一个不存在处理效应的样本。具体而言,作者选择实验数据中的对照组,以及非实验数据构建成的面板数据 (如下图红框所示)。由示意图可知,对于这样策略构建的数据,所有个体都实际上并未受到政策冲击。因而如果估计结果显著为正,则说明存在向上偏误,估计结果显著为负,则存在向下偏误。
drdid
回归命令和结果如下所示,其中 all
表示一次性输出多个估计量,包括双重稳健估计量、OR 估计量和 IPW 估计量等。
. use "https://friosavila.github.io/playingwithstata/drdid/lalonde.dta", clear
. * 输出双重稳健估计量、OR 估计量和 IPW 估计量
. drdid re age educ black married nodegree hisp re74 if treated==0 | sample==2, ///
> ivar(id) time(year) tr(experimental) all
Doubly robust difference-in-differences estimator summary
------------------------------------------------------------------------------
| Coefficient Std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
ATET |
dripw | -871.327 396.021 -2.20 0.028 -1647.514 -95.140
drimp | -901.270 393.613 -2.29 0.022 -1672.737 -129.804
reg | -1300.645 349.826 -3.72 0.000 -1986.291 -614.998
ipw | -1107.872 408.613 -2.71 0.007 -1908.738 -307.006
stdipw | -1021.609 397.520 -2.57 0.010 -1800.734 -242.484
sipwra | -908.291 393.867 -2.31 0.021 -1680.257 -136.326
------------------------------------------------------------------------------
Note: This table is provided for comparison across estimations only.
You cannot use it to compare estimates across different estimators
dripw :Doubly Robust IPW
drimp :Doubly Robust Improved estimator
reg :Outcome regression or Regression augmented estimator
ipw :Abadie(2005) IPW estimator
stdipw:Standardized IPW estimator
sipwra:IPW and Regression adjustment estimator.
由于 drdid
命令没有给出 TWFE 估计量
. * 生成 did 变量
. gen didfe=0
. replace didfe=1 if year==1978 & experimental==1
. * TWFE 回归
. xtset id year
. xtreg re didfe age educ black married nodegree hisp re74 i.year if treated==0 | sample==2, fe r
------------------------------------------------------------------------------
| Robust
re | Coefficient std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
didfe | 867.509 330.006 2.63 0.009 220.661 1514.357
------------------------------------------------------------------------------
上述回归结果,也可以在 Sant 和 Zhao (2020) 的表 3 中看到 (如下图中红色高亮所示)。比较可知,TWFE 估计量向上偏误为 868。双重稳健和增进型双重稳健估计量分别向下偏误 871 和 901。在这一组六个回归结果中,双重稳健估计量和 TWFE 估计量均显示了较小的估计偏误和较小的标准误。
然而,本例子中 TWFE 估计量的良好性状是一种偶然。从 Sant 和 Zhao (2020) 在表 3 中其它回归结果来看 (如下所示),对于使用 DW 样本和 Early RA 样的数据,TWFE 估计量
对于双重差分估计,一般有三种估计思路:OR 估计、IPW 估计和 TWFE 估计。OR 估计和 IPW 估计思路则只需要条件独立性假设、平行趋势假设和共同支撑域这三个假设。TWFE 估计思路是最为常见的方式,但其额外增加了处理效应跨时期同质性、控制变量无关性这两个假设。而这两个假设,尤其是跨时期同质性假设,在实践应用中往往难以满足。这就为进一步挖掘 OR 估计和 IPW 估计的优点提供了研究价值。
进一步,OR 方法的估计量好坏依赖于对被解释变量变异原因理解的准确性,IPW 方法都估计量好坏则依赖于于倾向得分指数计算的准确性。在观察到 OR 方法和 IPW 方法估计无偏性所依赖前提并不相同这一特征的基础上,Sant 和 Zhao (2020) 综合使用 OR 和 IPW 方法,构建了双重稳健估计量。
对于双重稳健估计量,Sant 和 Zhao (2020) 证明了只要上述两个方法前提能够至少有一个满足,就可以获得更为一致和有效的估计量。也就是说,双重稳健估计可以显著提高估计结果的无偏性。
最后,还需要再度强调以下两点。第一、使用双重稳健命令 drdid
对面板数据进行估计时,控制变量必须是不随时间变化的变量。否则只能当做是混合截面来处理,或者用作者提供的另外一个命令 csdid
来处理;第二、双重稳健命令 drdid
只是适用于两期 DID 问题,对于多期 DID 问题,则同样需要使用 csdid
命令。
Note:产生如下推文列表的 Stata 命令为:
lianxh did, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh