Selection Ratio:帮你解决头疼的遗漏变量偏误

发布时间:2020-09-08 阅读 5535

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course


作者: 郭楚玉 (武汉大学)
邮箱: julieguo@whu.edu.cn


目录


编者按:本文部分内容来自于江艇老师在「连享会-2020暑期论文班」上的讲义,特此致谢!

0. 理论背景

核心解释变量的内生性问题似乎是实证经济学家在追寻因果关系道路上避不开的拦路石。因为经济学研究中使用的数据绝大部分都不是通过实验条件生成的随机试验结果,选择性偏误(selection bias)是经济学家们经常过招的头号顽固敌人。选择性偏误泛指任何处理组和控制组之间的系统性区别(systematic difference)。举个例子:在研究私立学校 vs.公立学校的教育回报率问题上。对全样本直接做工资对是否上私立学校的回归,相当于直接比较私立学校学生和公立学校学生,这两组学生的组间平均工资的差异。然而,这个差值并不是准确的私立学校的教育回报率。因为私立学校学生和公立学校学生之间除了所上学校不同之外(我们关注的差别),还有很多系统性差别。比如私立学校学生,总体上平均总成绩更好,其父母收入更高,能力更综合优秀等。这些变量都是选择性变量,造成了两组人之间明显的选择性区别。

很多同学可能都知道此时应该把这些造成选择性偏误的变量控制起来!但是现实中因为数据集的限制,可能有些重要的可观测变量与核心解释变量非常相关,但我们没有数据。或者当你在回归的过程中,不断加入新的控制变量时,核心变量的系数随着新控制变量的加入而不断的减小或波动,此时你很可能会担忧,在没有数据限制下,还有更多的额外控制变量可供我们选择加入的话,我所探究和关心的因果关系是否还存在呢?此外,我们能控制的都是可观测变量 (selection on observed variables),那不可观测变量的选择性 (selection on unobserved varaibles) 如何排除呢?

Selection ratio 指标可以帮助我们来判别不可观测变量选择性偏误的强度!这背后的原理是系数估计稳定性理论。系数估计稳定性理论讲的是在控制了关键控制变量之后,新加入的控制变量与核心解释变量的残余相关性比较小,从而使得系数估计比较稳定。倘若研究中还存在遗漏的(不可观测的、没办法控制的)选择性变量的话,我们有理由相信,这些遗漏的选择性变量和核心解释变量之间的残余相关性也会比较小。所以即使不控制也不会影响我的系数估计。这样的推断有一个逻辑上的跳跃,这其实是一种间接检验的思想。即,系数估计稳定性理论的本质是用可观测变量的选择性去推断不可观测变量的选择性。即控制了关键控制变量以后,额外的可观测控制变量还能纠正系数估计的程度,去推断遗漏变量还能抵消掉的因果效果的程度。

1. Selection ratio 的基本原理

Selectio ratio 最初是由 Altonji, Elder & Taber (2005) 三人提出的。他们在这篇文章中构造了这个不可观测变量的选择性偏误强度的测量指标。具体构造过程如下:

D 为核心解释变量, W 包含了除 D 之外所有会影响 Y 的变量。(1)式的第二行,将 W 分成可观测的部分 X 和不可观测的 ξ。第三行,将 X 与 ξ 的相关性包含在 γ 中,使得 cov(X,ε)=0。此时,γ 既包含了 X 与 Y 的直接效应 ΓX,也包含了 X 与 ξ 之间的相关性。

  • 标准化后基于不可观测变量的选择性:
  • 标准化后基于可观测变量的选择性:

(2)和(3)式的分子部分都表达了不可观测变量或可观测变量会引起处理组和控制组间的不平衡的思想。因为 ϵ 是不可知的,所以无法求出 SU 的具体数值。基于前面理论背景的介绍,我们可以在假设 SU=SO 下,求 OLS 估计的偏误。具体推导过程如下:

  • 先用 D 对 X 回归:
  • 将 D 代入(1)式中

因为 D~ 与 X 不相关,省略(5)式的第二项不影响 D~ 的 OLS 估计。

(6)式第二行的变换是根据(4)式用 D 替换 D~ ,因 X 与 ε 不相关,所以 D~ 与 X 的相关性是由于 D 与 X 的相关性造成的。(6)式第四行中的第二项,就是不可观测变量所造成的选择性偏误。 若要将得到的因果效应(β^OLS) 完全归因于不可观测变量的选择性,即 β=0 ,则

  • 定义 δ=SUSO 为 selection ratio。 将(2)、(3)式代入得

若 SU=SO,将(7)式代入变换:

Note: 该结果自动适用于 D 为连续变量的情形。

最终求得 Selection ratio 的表达式:

此时如果知道右式中各部分的数值,即可算出 δ。 δ 越大,SU 需要越大,才能完成抵消 D 对 Y 的因果效应。一般认为,δ>1 ,核心系数的估计越不可能是由于不可观测变量的选择性造成的。

2. Selection ratio 计算步骤

根据上面推导的原理,我们可以总结出计算 Selection ratio 的具体步骤:

  • (1) Y 对 D 和 X 回归,得到 β^OLS
  • (2) Y 对 X 回归,得到拟合值 Xγ ,以及残差对平方 Var(ε)
  • (3) D 对 Xγ 回归,得到系数估计 Cov(Xγ,D)Var(Xγ)
  • (4) D 对 X 回归,得到残差的方差 Var(D~)

Note: 在原假设 β=0 下,我们可以一致的估计 γ

3. Stata 实操

下面使用 Stata 自带的 nlsw88.dta 数据来示范如何计算 selection ratio 。我们使用该数据集来研究一个经典经济学问题:教育的回报率。wage 为因变量,表示个人每小时工资;school 为核心解释变量,表示被调查者的受教育程度;可观测控制变量使用了13个,包括总参加工作时间,工作任期,每周工作小时数,是否本科毕业,职业,行业,种族,婚姻状态,居住地等。因受教育程度本身有很强的内生性,学界很多篇经典的文章都是在解决教育内生性的问题。因为这个 nlsw88.dta 数据集里控制变量很常见且有限,且无法控制(如能力之类的)重要的不可观测变量。我们可以预判遗漏变量偏误很可能会抵消教育的因果效应,δ 很可能小于 1。

sysuse  nlsw88.dta,clear
(NLSW, 1988 extract)
. global xvars "exp exp2 tenure hours collgrad industry occupation race married never_married south smsa c_city"

* 计算selection ratio
. * step 1
. reg wage school $xvars

      Source |       SS           df       MS      Number of obs   =     2,207
-------------+----------------------------------   F(14, 2192)     =     41.59
       Model |  15469.3786        14  1104.95562   Prob > F        =    0.0000
    Residual |  58237.3086     2,192  26.5681152   R-squared       =    0.2099
-------------+----------------------------------   Adj R-squared   =    0.2048
       Total |  73706.6872     2,206  33.4119162   Root MSE        =    5.1544

-------------------------------------------------------------------------------
         wage |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
--------------+----------------------------------------------------------------
       school |      0.422      0.077     5.48   0.000        0.271       0.573
          exp |      0.261      0.105     2.48   0.013        0.054       0.468
         exp2 |     -0.004      0.004    -0.84   0.400       -0.012       0.005
       tenure |      0.058      0.025     2.33   0.020        0.009       0.107
        hours |      0.044      0.011     4.04   0.000        0.023       0.066
     collgrad |      1.694      0.445     3.80   0.000        0.821       2.568
     industry |     -0.096      0.039    -2.45   0.014       -0.172      -0.019
   occupation |     -0.274      0.034    -8.06   0.000       -0.341      -0.208
         race |     -0.417      0.250    -1.66   0.096       -0.908       0.074
      married |     -0.313      0.265    -1.18   0.237       -0.833       0.206
never_married |     -0.290      0.412    -0.70   0.481       -1.098       0.518
        south |     -0.848      0.236    -3.60   0.000       -1.310      -0.386
         smsa |      1.461      0.273     5.36   0.000        0.926       1.995
       c_city |     -0.158      0.277    -0.57   0.569       -0.702       0.386
        _cons |     -0.567      1.199    -0.47   0.637       -2.918       1.785
-------------------------------------------------------------------------------
. scalar coef_ols=_b[school]

* step 2
. reg wage $xvars

      Source |       SS           df       MS      Number of obs   =     2,207
-------------+----------------------------------   F(13, 2193)     =     41.92
       Model |  14670.4889        13  1128.49915   Prob > F        =    0.0000
    Residual |  59036.1983     2,193  26.9202911   R-squared       =    0.1990
-------------+----------------------------------   Adj R-squared   =    0.1943
       Total |  73706.6872     2,206  33.4119162   Root MSE        =    5.1885

-------------------------------------------------------------------------------
         wage |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
--------------+----------------------------------------------------------------
          exp |      0.323      0.105     3.06   0.002        0.116       0.530
         exp2 |     -0.005      0.004    -1.20   0.229       -0.014       0.003
       tenure |      0.058      0.025     2.31   0.021        0.009       0.108
        hours |      0.045      0.011     4.10   0.000        0.024       0.067
     collgrad |      3.588      0.283    12.68   0.000        3.033       4.144
     industry |     -0.063      0.039    -1.62   0.106       -0.139       0.013
   occupation |     -0.292      0.034    -8.54   0.000       -0.359      -0.225
         race |     -0.580      0.250    -2.32   0.020       -1.071      -0.090
      married |     -0.326      0.267    -1.22   0.222       -0.849       0.197
never_married |     -0.303      0.415    -0.73   0.465       -1.116       0.510
        south |     -0.964      0.236    -4.08   0.000       -1.427      -0.501
         smsa |      1.584      0.274     5.79   0.000        1.048       2.121
       c_city |     -0.172      0.279    -0.62   0.537       -0.720       0.375
        _cons |      3.975      0.873     4.55   0.000        2.263       5.687
-------------------------------------------------------------------------------

. predict xgamma if e(sample)
(option xb assumed; fitted values)
. scalar VE=e(rmse)^2

* step 3
. qui reg school xgamma
. scalar coef1=_b[xgamma]

* step 4
. qui reg school $xvars
. predict treatres if e(sample), res
. qui sum treatres
. scalar VE1=r(Var)

. scalar bias=coef1*VE/VE1
. scalar sratio=coef_ols/bias
. di sratio
.05456602

最后结果显示,selection ratio = 0.05 (小于1)。我们有理由相信 β^OLS 是有偏的,并不是教育真实的回报率。

4. 拓展阅读

Selection ratio 这一检测方法已经被广泛的运用于顶刊文章中。 Nunn & Wantchekon (2011, AER) 在研究奴隶贸易与当今非洲人们间的不信任的关系时,根据不同的模型设定,运用 selection ratio 的方法得出不可观测变量的影响必须是可观测变量影响的 3 到 11 倍大,才能将奴隶贸易对信任的因果关系完全抵消掉。因此,作者认为核心变量的系数估计不太可能完全是由于不可观测变量的选择性造成的。 Adit & Franck (2015, Econometrica) 研究了施荣暴动(swing riots)导致了辉格党 (Whig Party) 在 1831 年选举中获胜。计算出来的 selection ratio 为 2.5, 即不可观测变量的影响必须是可能观测变量影响的 2.5 倍,才能将 OLS 估计值完全归因于选测性偏误。更多使用 selection ratio 的文献可参考 Betrand, Kamenica & Pan (2015) , Rothstein (2010) , Bellows & Miguel (2009) , Chetty, Friedman & Rockoff (2011)。

5. 参考文献

  • Aidt, T. S., & Franck, R. (2015). Democratization Under the Threat of Revolution: Evidence From the Great Reform Act of 1832. Econometrica, 83(2), 505-547.

  • Altonji, J. G., Elder, T. E., & Taber, C. R. (2005). Selection on observed and unobserved variables: Assessing the effectiveness of Catholic schools. Journal of political economy, 113(1), 151-184.

  • Bellows, J., & Miguel, E. (2009). War and local collective action in Sierra Leone. Journal of public Economics, 93(11-12), 1144-1157.

  • Bertrand, M., Kamenica, E., & Pan, J. (2015). Gender identity and relative income within households. The Quarterly Journal of Economics, 130(2), 571-614.

  • Chetty, R., Friedman, J. N., & Rockoff, J. E. (2011). The long-term impacts of teachers: Teacher value-added and student outcomes in adulthood (No. w17699). National Bureau of Economic Research.

  • Nunn, N., & Wantchekon, L. (2011). The slave trade and the origins of mistrust in Africa. American Economic Review, 101(7), 3221-52.

  • Rothstein, J. (2010). Teacher quality in educational production: Tracking, decay, and student achievement. The Quarterly Journal of Economics, 125(1), 175-214.

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD