Stata:系数稳定性分析-psacalc

发布时间:2022-06-17 阅读 3153

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:宋慧慧 (格拉斯哥大学)
邮箱huihui.song@gla.ac.uk

编者按:本文部分内容摘译自下文,特此致谢!
Source:Oster E. Unobservable selection and coefficient stability: Theory and evidence[J]. Journal of Business & Economic Statistics, 2019, 37(2): 187-204. -PDF-


目录


1. 引言

在实证分析中,我们总是无法将全部控制变量加入到回归方程中,进而不可避免的会面临遗漏变量导致的内生性问题。一个常用的解决方法是系数敏感性分析,即加入新的可观测变量,如果处理效应系数仍然稳定,那么就认为遗漏变量造成的偏差较小。不过,以往文献对系数敏感性的分析,大都忽略了 R2 所反映的信息。

为此,Oster (2019) 基于处理效应与不可观测变量的关系可以由处理效应与可观测的变量的关系推出这一假设,完善了遗漏变量偏差的稳健性检验方法。

2. 理论介绍

其中,Y 是因变量,M 是处理变量,W1 为可观测变量的线性组合,W2 为不可观测变量的线性组合,ε 是误差项。Oster 方法使用可观测变量与 M 之间相关性信息来计算不可观测变量与 M 之间的相关性,以估计遗漏变量导致的偏误大小。具体来看,处理效应的无偏估计为:

其中,β˙ 和 R˙ 由方程 Y=α+Mβ+ε 得到,即只包含处理效应。β~ 和 R~ 由方程 Y=α+Mβ+W1+ε 得到,即同时包含处理效应和可观测变量。Rmax 由方程 Y=α+Mβ+W1+W2+ε 得到,即同时包含处理效应、可观测控制变量、以及不可观测控制变量。

从式 (2) 中可以看出,偏差的大小 (ββ~) 不仅取决于可观测变量对 β 的影响(β~ 与 β˙ 的差值),还取决于可观测变量对 Y 的解释能力 (R~ 与 R˙ 之间的差值) 相对于不可观测变量对 Y 的解释能力 (Rmax  R~)。因此,即使在 β 相对稳定的情况下,如果 (Rmax R~) 远大于 (R~R˙),那么也会造成很大的偏差。当然,在 β 不稳定的情况下,如果 RmaxR~R~R˙ 很小,偏差也会很小。

使用 Oster 方法,需要设定两个关键参数,分别是可观测变量与不可观测变量的比例 δ,以及模型最大的 Rmax。第一个参数 δ 是方程的选择比例系数,即 δσ1xσ12=σ2xσ22δ 定义了不可观测变量相对于可观测变量的重要性。当 δ=1 时,可观测变量和不可观测变量同等重要,且对 β 的影响方向相同;当 0<δ<1 时,不可观测变量不如可观测变量重要 (当 δ>1 时相反)。

第二个参数 Rmax,即式 (1) 的 R2Rmax 度量了可观测变量和不可观测变量对 Y 的解释能力。如果 Y 没有测量误差,Rmax 可以接近 1,但不会小于 R~

对于未知参数 δ 和 Rmax,Oster 认为 δ[0,1],因为可观测变量的选择是基于他们是最重要的控制这一事实。换句话说,不可观测变量对结果的影响不太可能比可观测变量的影响还大。类似地,基于模拟分析,Oster 给出了 Rmax 的有效边界,即 Rmax=1.3R~。当然,由于 Y 的变化中可能存在一些测量误差,并且这些误差不能完全由可观测和不可观测变量来解释,故 Rmax<1

3. 命令介绍

psacalc 命令安装:

ssc install psacalc, replace 

psacalc 命令语法:

psacalc estimate varname [, options]

其中,estimate 对应如下选项:

  • beta:计算处理效应,默认值为 0;
  • delta:计算选择比例系数 δ,默认值为 1。

options 如下:

  • mcontrols(varlist):不相关的控制变量包含在所有回归中;
  • rmax(#)Rmax 的值,默认值为 1;
  • model(command)regressaregxtreg 等;
  • delta(#):计算 δ 值;
  • beta(#):计算 β 值。

具体的用法如下:

. sysuse auto.dta, clear
. regress price foreign mpg weight headroom trunk 

. * 获得 beta, 假设 delta 等于 1, 因此认为可观测变量与不可观测变量重要性相同
. psacalc beta weight 

. * 获得 beta, 假设 delta 等于0.5, 因此认为不可观测变量的重要性小于可观测变量
. psacalc beta weight, delta(0.5) 

. * 获得 delta, 假设处理效应为 0
. psacalc delta weight 

. * 获得 delta, 假设处理效应为 5
. psacalc delta weight, beta(5) 

. * 获得 delta,假设处理效应为 5, 假设 rmax 为 0.7, 将 foreign 视为不相关的控制变量。
. psacalc delta weight, beta(5) rmax(0.7) mcontrol(foreign)

. * 通过 bootstrap 方法获得模型的标准误
. bs r(delta), rep(100): psacalc delta weight, model(regress price foreign mpg weight headroom trunk)

4. 文献案例

在实际应用中,有三种方法可以进行稳健性检验:

  • 检验 δ 的取值范围。给定 Rmax 的值,并计算在 β=0 的情况下 δ 的值。例如,δ=2,表明不可观测变量的重要性需要是可观测变量的两倍时,才会产生零处理效果,这是很难成立的。因此,我们一般认为 δ 的值大于等于 1 时,系数是稳定的;
  • 检验 β 的取值范围。给定 Rmax 和 δ 的值,并计算 β 的取值范围。然后,将  β 的取值范围与 0 进行比较。如果区域中不包含 0 值,则表明系数是稳定的;
  • 检验 Rmax 的取值范围。给定 β=0 和 δ=1,计算 Rmax 的值,来讨论不可观测变量的解释能力。

在实际应用中,文献大多采取一种方式进行稳健性检验。

4.1 根据 δ 进行稳健性检验

Satyanath S, Voigtländer N, Voth H J. Bowling for fascism: Social capital and the rise of the Nazi Party[J]. Journal of Political Economy, 2017, 125(2): 478-526. -PDF-

. reg pcNSentry_std clubs_all_pc lnpop25 share_cath25 bcollar25
. psacalc clubs_all_pc delta // 在处理效应为 0 时, delta 的值

      Source |       SS       df       MS              Number of obs =     227
-------------+------------------------------           F(  4,   222) =   16.39
       Model |  51.5480308     4  12.8870077           Prob > F      =  0.0000
    Residual |  174.566142   222  .786333974           R-squared     =  0.2280
-------------+------------------------------           Adj R-squared =  0.2141
       Total |  226.114173   226  1.00050519           Root MSE      =  .88675
------------------------------------------------------------------------------
pcNSe~ry_std |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
clubs_all_pc |   .1602746   .0461211     3.48   0.001     .0693834    .2511657
     lnpop25 |   .1754246   .0602341     2.91   0.004     .0567208    .2941284
share_cath25 |    -.93368   .1858638    -5.02   0.000    -1.299963   -.5673968
   bcollar25 |  -2.774246   .5570941    -4.98   0.000    -3.872115   -1.676376
       _cons |  -.6848404   .7248382    -0.94   0.346    -2.113284    .7436037
------------------------------------------------------------------------------

               ---- Bound Estimate ----
-------------+----------------------------------------------------------------
delta        |      -1.07120
-------------+----------------------------------------------------------------

                 ---- Inputs from Regressions ----
             |      Coeff.                      R-Squared
-------------+----------------------------------------------------------------
Uncontrolled |        0.12588                   0.039
Controlled   |        0.16027                   0.228
-------------+----------------------------------------------------------------

                 ---- Other Inputs ----
-------------+----------------------------------------------------------------
R_max        |   1.000
Beta         |    0.000000
M Controls   |
-------------+----------------------------------------------------------------

从结果中可以看到,控制可观测变量后,R2 从 0.04 增加到 0.23,表明可观测变量对于解释结果变量的重要性。同时,δ 的值小于 0。Satayanath 等 (2017) 证明如果 δ 的值小于 0,则偏差调整后的系数应大于之前回归得到的系数,证明了结果的稳健性。

4.2 根据 β 进行稳健性检验

Bryan M, Roberts J, Sechel C. The Effect of Mental Health on Employment: Accounting for Selection Bias[R]. HEDG, c/o Department of Economics, University of York, 2019. -PDF-

从表中可以看出,作者先对含有可观测变量的方程进行回归,进而得到 R~。然后检验在 δ=1 的情况下,给定不同的 Rmax,观察处理效应的系数是否发生了变化。

4.3 根据 β 或 δ 进行检验

马双, 赵文博. 方言多样性与流动人口收入——基于 CHFS 的实证研究[J]. 经济学 (季刊), 2019, 1. -Link-

Oster 证明,当模型可能存在不可观测的遗漏变量时,可采用估计量 β=β(Rmax,δ) 获得真实系数的一致估计。该估计量需要设定两个参数:δ 与 Rmax。其中,δ 为选择比例 (selection proportionality),它衡量可观测变量与关注变量的相关关系相较于不可观测遗漏变量与关注变量的相关关系的强弱。

Rmax 的含义是,若不可观测的遗漏变量能够被观测,回归方程的最大拟合优度。Oster 进行了随机模拟并整理、检验了现有文献结果,采用 Oster 的建议,本文将采取以下方法对实证结果进行稳健性检验:(1) δ 取 1Rmax 取 1.3 倍当前回归拟合优度或参考同类文献确定适宜的 Rmax,如果 β=β(Rmax,δ)) 落在了估计参数的 95% 置信区间内,则结果通过稳健性检验;(2) Rmax 取值方法与 (1) 相同,计算使 β=0 的 δ 的取值,若 δ 取值大于 1,则结果通过了稳健性检验。

本文首先取 Rmax=0.411,即取 Rmax 为 1.3 倍当前回归拟合优度,并将稳健性检验的结果汇报在表 4。结果显示,本文的结果通过了稳健性检验。除此之外,本文还整理了国内发表于 2013-2015 年的相关文献的 129 个回归结果,取 Rmax  为其中最大的拟合优度 0.410,结果依然稳健。

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 敏感性 稳健性, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh