Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:李适源 (北京大学)
邮箱:shiyuanli@pku.edu.cn
编者按:本文主要摘译自下文,特此致谢!
Source:Krauth B. Bounding a linear causal effect using relative correlation restrictions[J]. Journal of Econometric Methods, 2016, 5(1): 117-141. -PDF-
目录
在使用传统计量方法进行因果推断时,我们常常会设定如下的线性模型:
其中,
需要注意的是:出于简便起见,本文论述基于传统计量框架下的 “同质性因果效应”,没有引入 “潜在结果框架” 来严格定义因果效应 (或称处理效应)。另外,本文使用的符号来自原文,与通常介绍因果推断的文献有所不同。
为识别总体因果效应
注意上式第二个等号对应的假定并不是强假定。这是因为,如果
由于 “均值独立” 可以推出 “不相关”,上述假定条件可以推出误差项
此时,使用
为什么我们有这么强烈的信念,认定解释变量
相比于直接假定
更重要的是,我们设定误差项与解释变量之间相关性强度的取值范围 (即遗漏变量可能带来的威胁最小是多少,最大是多少),然后在因果推断存在瑕疵 (内生性) 的情况下,重新估计
其中,
边界
另外,我们也可以求出边界值
这个置信区间可以近似解读为,在我们允许的误差项与解释变量的相关性强度范围内,该区间有 95% 的可能性覆盖住真实的因果效应系数。此时,可以直接考察这个置信区间是否包含 0 值。如果已经包含了 0 值,则意味着,在我们设定的误差项与解释变量的相关性强度范围之内,因果效应系数的估计结果在 5% 水平上不再显著,即系数估计结果对遗漏变量问题较为敏感 (不够稳健)。
了解敏感性分析的基本原理之后,一个关键问题是,应该怎样设定
具体来说,
原文作者建议,可以将
总结起来,作者将偏误系数
首先,安装 rcr
命令:
. net from http://www.sfu.ca/~bkrauth/code
. net install rcr.pkg, replace
. net get rcr.pkg, replace
然后,通过 help rcr
查看命令语法:
rcr depvar treatmentvar controlvars [if] [in] [weight][, options]
其中,[options]
中的 lambda()
选项可以手动设定偏误系数的取值范围,默认取值范围为 lambda(0 1)
。[options]
中的 cluster()
选项可以计算聚类稳健标准误。
我们使用 rcr_example.dta
数据进行演示。该数据取自田纳西州的师生比例研究 (Tennessee Student Teacher Achievement Ratio Study),简称 STAR 项目。该项目主要用来评估班级规模对学生学业表现的影响。如果大家阅读过 Stock 和 Waston (2014) 的计量教材,那么一定对这份数据的研究情景非常熟悉。
以下分析是基于 Krueger (1999) 的研究。79 所小学被非随机地选中参加了 STAR 项目。在每一所小学当中,1985 年进入幼儿园的学生,被随机分配到三组:小班组、普通班组或有全职教师助理的普通班组。为简化论述,我们将上述三组学生合并为两组:小班组和普通班组。研究目标是考察,小班教学 (相比普通班) 对于学生成绩的因果效应。
. use "http://www.sfu.ca/~bkrauth/code/rcr_example.dta", clear // 导入数据
. describe, fullnames // 查看变量信息和样本量
Contains data from http://www.sfu.ca/~bkrauth/code/rcr_example.dta
Observations: 5,839 Project STAR data, kindergarten
Variables: 11 28 May 2010 09:12
-----------------------------------------------------------------------------
Variable Storage Display Value
name type format label Variable label
-----------------------------------------------------------------------------
SCHID long %9.0g SCHID
TCHID long %9.0g TCHID
SAT double %9.0g SAT
Small_Class double %9.0g Small.Class
Regular_Aide_Class
double %9.0g Regular.Aide.Class
White_Asian double %9.0g White.Asian
Girl double %9.0g Girl
Free_Lunch double %9.0g Free.Lunch
White_Teacher double %9.0g White.Teacher
Teacher_Experience
double %9.0g Teacher.Experience
Masters_Degree double %9.0g Masters.Degree
-----------------------------------------------------------------------------
可以看到,这份示例数据集包含 5839 个学生 (observations),共 11 个变量。其中,结果变量 SAT 表示样本学生的平均百分位成绩 (average percentile score)。核心解释变量 (处理变量) Small_Class 是一个二值变量,取 1 表示学生所在班级规模为小班,课堂容量在 13-17 人之间;取 0 表示学生所在班级为普通班级规模,课堂容量在 22-25 人之间。
虽然这项研究本身是实验研究,但是 Krueger (1999) 注意到分班的随机化并不完美:有一些学生原本被分配到普通班,但通过家长的努力,成功转到了小班当中;另外,被分配到普通班的学生,有更大概率选择转校 (可能是想去其他学校的小班)。这些都是不完美随机化的证据。因此有必要在回归分析中控制以下变量:
i.SCHID
来设置学校固定效应)。之所以要设置学校固定效应,是由于每所学校是否参与 STAR 项目是非随机的,而随机分班是在每一所学校内进行的;另外,TCHID 类似于学生所在班级的代码。考虑到同一班级内学生的扰动项可能存在聚类相关,因此在下列回归中使用 cluster(TCHID)
来估计聚类稳健的标准误。
首先使用 OLS,引入上述控制变量 (并设置学校固定效应)。我们使用 areg
命令进行估计,利用 absorb(SCHID)
来吸收学校固定效应。估计结果如下:
. global Controls "White_Asian Girl Free_Lunch White_Teacher Teacher_Experience Masters_Degree"
. areg SAT Small_Class $Controls, absorb(SCHID) cluster(TCHID)
Linear regression, absorbing indicators Number of obs = 5,839
Absorbed variable: SCHID No. of categories = 79
F(7, 322) = 61.41
Prob > F = 0.0000
R-squared = 0.0927
Adj R-squared = 0.0793
Root MSE = 22.3517
(Std. err. adjusted for 323 clusters in TCHID)
------------------------------------------------------------------------------------
| Robust
SAT | Coefficient std. err. t P>|t| [95% conf. interval]
-------------------+----------------------------------------------------------------
Small_Class | 5.202 1.038 5.01 0.000 3.159 7.244
White_Asian | 8.389 1.363 6.15 0.000 5.707 11.071
Girl | 4.382 0.630 6.96 0.000 3.143 5.621
Free_Lunch | -13.077 0.774 -16.89 0.000 -14.600 -11.555
White_Teacher | -1.090 2.185 -0.50 0.618 -5.388 3.209
Teacher_Experience | 0.265 0.105 2.53 0.012 0.059 0.471
Masters_Degree | -0.600 1.061 -0.57 0.572 -2.687 1.487
_cons | 47.096 2.422 19.45 0.000 42.332 51.860
------------------------------------------------------------------------------------
OLS 估计结果显示,小班教学对应系数为 5.202,在 1% 的统计水平上显著。这在一定程度上说明,平均意义上,小班教学 (相比于普通班级规模) 提升了学生的标准化分位数成绩约 5.2 个百分点。
OLS 估计结果是否对未观测到的遗漏变量敏感?下面使用 rcr
命令来进行敏感性分析。命令格式和 reg
非常相似,不同之处是在选项中加入偏误系数 lambda(0 1)
。估计结果如下:
. rcr SAT Small_Class $Controls,lambda(0 1) cluster(TCHID)
RCR model Number of obs = 5839
Lower bound on lambda = 0
Upper bound on lambda = 1
(Std. err. adjusted for 323 clusters in TCHID)
------------------------------------------------------------------------------
| Robust
SAT | Coefficient std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
lambdaInf | 12.311 8.317 1.48 0.139 -3.990 28.611
betaxInf | 8.170 43.646 0.19 0.852 -77.375 93.714
lambda0 | 28.935 145.177 0.20 0.842 -255.607 313.478
betaxL | 5.135 1.359 3.78 0.000 2.472 7.798
betaxH | 5.202 1.031 5.05 0.000 3.182 7.221
-------------+----------------------------------------------------------------
betax | (Conservative confidence interval) 2.472053 7.221435
------------------------------------------------------------------------------
Treatment Variable: Small_Class
Control Variables : White_Asian Girl Free_Lunch White_Teacher
Teacher_Experience Masters_Degree
上表中比较关键的是最后三行系数。倒数第三行 betaxL 对应
可以看出,
最后一行为保守置信区间 (也就是对偏误不敏感的置信区间)。这个置信区间就是将
本文介绍的相对偏误与边界估计方法,主要适用于同质性因果效应模型,而且一般依赖于线性模型的参数化设定。但是在一般性的因果推断框架中,因果效应往往是因人而异,而且结果变量的条件期望函数可能与控制变量也并非线性关系。此时可能需要借助一些半参数方法或者非参数方法来估计总体平均因果效应 (rcr
命令可能不再适用)。
为此,大家可参考以往文献提供的敏感性分析方法 (Rosenbaum 和 Rubin,1984;Rosenbaum,1995;Vanderweele 和 Arah,2011)。他们使用更具一般性的潜在结果框架来定义因果效应,在该框架下识别和估计因果效应系数,并展开敏感性分析。大家也可以阅读计量界两位大佬的一篇综述 (Imbens 和 Wooldridge,2009),他们在第 6 章的 6.1 节和 6.2 节详细回顾了敏感性分析 (Sensitivity Analaysis) 的经典方法。
此外,如果要针对工具变量回归的估计结果展开敏感性分析,可以参考 Conley 等 (2012) 提供的分析框架。
Note:产生如下推文列表的 Stata 命令为:
lianxh 敏感性 不外生 遗漏变量, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh