温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
作者: 郭楚玉 (武汉大学)
邮箱: julieguo@whu.edu.cn
目录
编者按:本文部分内容来自于江艇老师在「连享会-2020暑期论文班」上的讲义,特此致谢!
核心解释变量的内生性问题似乎是实证经济学家在追寻因果关系道路上避不开的拦路石。因为经济学研究中使用的数据绝大部分都不是通过实验条件生成的随机试验结果,选择性偏误(selection bias)是经济学家们经常过招的头号顽固敌人。选择性偏误泛指任何处理组和控制组之间的系统性区别(systematic difference)。举个例子:在研究私立学校 vs.公立学校的教育回报率问题上。对全样本直接做工资对是否上私立学校的回归,相当于直接比较私立学校学生和公立学校学生,这两组学生的组间平均工资的差异。然而,这个差值并不是准确的私立学校的教育回报率。因为私立学校学生和公立学校学生之间除了所上学校不同之外(我们关注的差别),还有很多系统性差别。比如私立学校学生,总体上平均总成绩更好,其父母收入更高,能力更综合优秀等。这些变量都是选择性变量,造成了两组人之间明显的选择性区别。
很多同学可能都知道此时应该把这些造成选择性偏误的变量控制起来!但是现实中因为数据集的限制,可能有些重要的可观测变量与核心解释变量非常相关,但我们没有数据。或者当你在回归的过程中,不断加入新的控制变量时,核心变量的系数随着新控制变量的加入而不断的减小或波动,此时你很可能会担忧,在没有数据限制下,还有更多的额外控制变量可供我们选择加入的话,我所探究和关心的因果关系是否还存在呢?此外,我们能控制的都是可观测变量 (selection on observed variables),那不可观测变量的选择性 (selection on unobserved varaibles) 如何排除呢?
Selection ratio 指标可以帮助我们来判别不可观测变量选择性偏误的强度!这背后的原理是系数估计稳定性理论。系数估计稳定性理论讲的是在控制了关键控制变量之后,新加入的控制变量与核心解释变量的残余相关性比较小,从而使得系数估计比较稳定。倘若研究中还存在遗漏的(不可观测的、没办法控制的)选择性变量的话,我们有理由相信,这些遗漏的选择性变量和核心解释变量之间的残余相关性也会比较小。所以即使不控制也不会影响我的系数估计。这样的推断有一个逻辑上的跳跃,这其实是一种间接检验的思想。即,系数估计稳定性理论的本质是用可观测变量的选择性去推断不可观测变量的选择性。即控制了关键控制变量以后,额外的可观测控制变量还能纠正系数估计的程度,去推断遗漏变量还能抵消掉的因果效果的程度。
Selectio ratio 最初是由 Altonji, Elder & Taber (2005) 三人提出的。他们在这篇文章中构造了这个不可观测变量的选择性偏误强度的测量指标。具体构造过程如下:
(2)和(3)式的分子部分都表达了不可观测变量或可观测变量会引起处理组和控制组间的不平衡的思想。因为
因为
(6)式第二行的变换是根据(4)式用
若
Note: 该结果自动适用于
为连续变量的情形。
最终求得 Selection ratio 的表达式:
此时如果知道右式中各部分的数值,即可算出
根据上面推导的原理,我们可以总结出计算 Selection ratio 的具体步骤:
Note: 在原假设
下,我们可以一致的估计 。
下面使用 Stata 自带的 nlsw88.dta 数据来示范如何计算 selection ratio 。我们使用该数据集来研究一个经典经济学问题:教育的回报率。wage 为因变量,表示个人每小时工资;school 为核心解释变量,表示被调查者的受教育程度;可观测控制变量使用了13个,包括总参加工作时间,工作任期,每周工作小时数,是否本科毕业,职业,行业,种族,婚姻状态,居住地等。因受教育程度本身有很强的内生性,学界很多篇经典的文章都是在解决教育内生性的问题。因为这个 nlsw88.dta 数据集里控制变量很常见且有限,且无法控制(如能力之类的)重要的不可观测变量。我们可以预判遗漏变量偏误很可能会抵消教育的因果效应,
sysuse nlsw88.dta,clear
(NLSW, 1988 extract)
. global xvars "exp exp2 tenure hours collgrad industry occupation race married never_married south smsa c_city"
* 计算selection ratio
. * step 1
. reg wage school $xvars
Source | SS df MS Number of obs = 2,207
-------------+---------------------------------- F(14, 2192) = 41.59
Model | 15469.3786 14 1104.95562 Prob > F = 0.0000
Residual | 58237.3086 2,192 26.5681152 R-squared = 0.2099
-------------+---------------------------------- Adj R-squared = 0.2048
Total | 73706.6872 2,206 33.4119162 Root MSE = 5.1544
-------------------------------------------------------------------------------
wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------------+----------------------------------------------------------------
school | 0.422 0.077 5.48 0.000 0.271 0.573
exp | 0.261 0.105 2.48 0.013 0.054 0.468
exp2 | -0.004 0.004 -0.84 0.400 -0.012 0.005
tenure | 0.058 0.025 2.33 0.020 0.009 0.107
hours | 0.044 0.011 4.04 0.000 0.023 0.066
collgrad | 1.694 0.445 3.80 0.000 0.821 2.568
industry | -0.096 0.039 -2.45 0.014 -0.172 -0.019
occupation | -0.274 0.034 -8.06 0.000 -0.341 -0.208
race | -0.417 0.250 -1.66 0.096 -0.908 0.074
married | -0.313 0.265 -1.18 0.237 -0.833 0.206
never_married | -0.290 0.412 -0.70 0.481 -1.098 0.518
south | -0.848 0.236 -3.60 0.000 -1.310 -0.386
smsa | 1.461 0.273 5.36 0.000 0.926 1.995
c_city | -0.158 0.277 -0.57 0.569 -0.702 0.386
_cons | -0.567 1.199 -0.47 0.637 -2.918 1.785
-------------------------------------------------------------------------------
. scalar coef_ols=_b[school]
* step 2
. reg wage $xvars
Source | SS df MS Number of obs = 2,207
-------------+---------------------------------- F(13, 2193) = 41.92
Model | 14670.4889 13 1128.49915 Prob > F = 0.0000
Residual | 59036.1983 2,193 26.9202911 R-squared = 0.1990
-------------+---------------------------------- Adj R-squared = 0.1943
Total | 73706.6872 2,206 33.4119162 Root MSE = 5.1885
-------------------------------------------------------------------------------
wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------------+----------------------------------------------------------------
exp | 0.323 0.105 3.06 0.002 0.116 0.530
exp2 | -0.005 0.004 -1.20 0.229 -0.014 0.003
tenure | 0.058 0.025 2.31 0.021 0.009 0.108
hours | 0.045 0.011 4.10 0.000 0.024 0.067
collgrad | 3.588 0.283 12.68 0.000 3.033 4.144
industry | -0.063 0.039 -1.62 0.106 -0.139 0.013
occupation | -0.292 0.034 -8.54 0.000 -0.359 -0.225
race | -0.580 0.250 -2.32 0.020 -1.071 -0.090
married | -0.326 0.267 -1.22 0.222 -0.849 0.197
never_married | -0.303 0.415 -0.73 0.465 -1.116 0.510
south | -0.964 0.236 -4.08 0.000 -1.427 -0.501
smsa | 1.584 0.274 5.79 0.000 1.048 2.121
c_city | -0.172 0.279 -0.62 0.537 -0.720 0.375
_cons | 3.975 0.873 4.55 0.000 2.263 5.687
-------------------------------------------------------------------------------
. predict xgamma if e(sample)
(option xb assumed; fitted values)
. scalar VE=e(rmse)^2
* step 3
. qui reg school xgamma
. scalar coef1=_b[xgamma]
* step 4
. qui reg school $xvars
. predict treatres if e(sample), res
. qui sum treatres
. scalar VE1=r(Var)
. scalar bias=coef1*VE/VE1
. scalar sratio=coef_ols/bias
. di sratio
.05456602
最后结果显示,selection ratio = 0.05 (小于1)。我们有理由相信
Selection ratio 这一检测方法已经被广泛的运用于顶刊文章中。 Nunn & Wantchekon (2011, AER) 在研究奴隶贸易与当今非洲人们间的不信任的关系时,根据不同的模型设定,运用 selection ratio 的方法得出不可观测变量的影响必须是可观测变量影响的 3 到 11 倍大,才能将奴隶贸易对信任的因果关系完全抵消掉。因此,作者认为核心变量的系数估计不太可能完全是由于不可观测变量的选择性造成的。 Adit & Franck (2015, Econometrica) 研究了施荣暴动(swing riots)导致了辉格党 (Whig Party) 在 1831 年选举中获胜。计算出来的 selection ratio 为 2.5, 即不可观测变量的影响必须是可能观测变量影响的 2.5 倍,才能将 OLS 估计值完全归因于选测性偏误。更多使用 selection ratio 的文献可参考 Betrand, Kamenica & Pan (2015) , Rothstein (2010) , Bellows & Miguel (2009) , Chetty, Friedman & Rockoff (2011)。
Aidt, T. S., & Franck, R. (2015). Democratization Under the Threat of Revolution: Evidence From the Great Reform Act of 1832. Econometrica, 83(2), 505-547.
Altonji, J. G., Elder, T. E., & Taber, C. R. (2005). Selection on observed and unobserved variables: Assessing the effectiveness of Catholic schools. Journal of political economy, 113(1), 151-184.
Bellows, J., & Miguel, E. (2009). War and local collective action in Sierra Leone. Journal of public Economics, 93(11-12), 1144-1157.
Bertrand, M., Kamenica, E., & Pan, J. (2015). Gender identity and relative income within households. The Quarterly Journal of Economics, 130(2), 571-614.
Chetty, R., Friedman, J. N., & Rockoff, J. E. (2011). The long-term impacts of teachers: Teacher value-added and student outcomes in adulthood (No. w17699). National Bureau of Economic Research.
Nunn, N., & Wantchekon, L. (2011). The slave trade and the origins of mistrust in Africa. American Economic Review, 101(7), 3221-52.
Rothstein, J. (2010). Teacher quality in educational production: Tracking, decay, and student achievement. The Quarterly Journal of Economics, 125(1), 175-214.
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟 Stata 33 讲 - 连玉君, 每讲 15 分钟. 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看,所有课程可以随时购买观看。
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 ⭐ | DSGE, 因果推断, 空间计量等 | |
⭕ Stata数据清洗 | 游万海 | 直播, 2 小时,已上线 |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会学习群-常见问题解答汇总:
✨ https://gitee.com/arlionn/WD