arhomme:分位数回归中的样本选择问题-T202

发布时间:2021-05-13 阅读 2833

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装命令如下:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者: 徐云娇 (厦门大学)
邮箱: jilyo@stu.xmu.edu.cn


目录


1. 背景介绍

样本选择问题:研究样本是经过内生选择的,从而根据这些样本数据所估计的参数就不能准确反映总体性质的分布。以妇女的工资状况为例,由于未参加工作的妇女没有工资数据,所以我们的样本中只包含了就业妇女的薪资水平,用这部分劳动妇女的数据进行回归得到的系数很可能存在偏误。下面用因果图简要说明偏误的来源:

上图中,干扰因素 e 和教育水平共同影响着妇女参加工作的效用,而效用是一个被控制住的变量 (只有当效用大于 0 的妇女才会参加工作),所以此时 e 和教育在样本中产生了相关性,出现了一条衍生路径 “教育 ··· e ”,那么教育与工资之间便有了两条路径:一条是因果路径 “教育  工资”;另一条是混淆路径 “教育 ··· e  工资”。假如不考虑混淆路径直接进行回归,估计出的系数就会存在样本选择偏差。

当存在样本选择问题时,我们该如何修正估计系数的偏差呢?

  1. Heckman (1979) 给出了条件均值回归下的修正方法,这便是大家所熟知的 Heckman 两步法 (微信版);

  2. 基于分位数回归框架的研究相对落后,Arellano & Bonhomme (2017) 是首篇给出一般性纠偏方法的文章。

本推文介绍的新命令 arhomme 便是 Martin Biewen & Pascal Erhardt (2020) 在此基础之上开发的 Stata 新命令。

2. arhomme 命令介绍

2.1 理论部分

Arellano & Bonhomme (2017) 提出了分位数回归中修正样本选择偏差的方法,模型设定如下:

(1) Y=q(U,X) (2) D=1{Vp(Z)} (3) Y=Y if D=1

其中,Y 为潜在收入,D 为指示变量 (等于 1 时代表个体参与劳动力市场),U 和 V 是误差项,Z=(B,X) 中包含 X 变量,并且还包括协变量 B。我们可以观测到 (Y,D,Z),所以潜在收入 Y=Y 只有在 D=1 时才可被观测到。本模型中,样本选择偏差的来源是 U 和 V 之间存在相关性。

修正的过程具体可分为以下三个步骤:

Step1: 估计倾向得分参数 θ

这一步中利用了 Probit 模型进行最大似然估计,可以得到倾向得分参数 θ 的一致估计量 θ^,用于下面两步中。

Step2: 估计 copula 参数 ρ

在基础模型的假设之下 (具体细节可见论文),可以推导得到 Y 的条件累积分布函数 (CDF):

其中,Gx(τ,p)Cx(τ,p)/p 是条件 copula 函数,它衡量了 U 和 V 之间的相关性,即样本选择偏差的来源。

为进一步分析,假设 copula 函数是由参数向量 ρ 复合而成的,即:

根据 (5) 式便有矩条件:

其中,p(Z;θ) 是关于参数 θ 的已知方程。

接下去结合第一步中估计得到的 θ^,通过最小化矩条件来估计 Copla 参数 ρ

其中,τ1<τ2<<τL 分布于 (0,1), 代表的是欧氏距离,φ(τ,Zi) 是定义的工具方程,并且还有:

Step3: 修正的分位数回归 在得到了 θ^ 与 ρ^ 之后,对任意的 τ(0,1),都可计算:

其中,

我们可以比较修正的分位数回归的 β^τ 与普通分位数回归的 β~τ

以上可见,为了修正样本选择偏差,传统分位数回归中的 τ 被 G^τi 所替代了。

2.2 语法结构

arhomme 命令是 Martin Biewen & Pascal Erhardt (2020) 根据以上估计方法所编写的 Stata 命令,其语法结构如下:

qregsel depvar indepvars [if] [in] [weight], select([depvar_s =] varlist_s])[quantiles(#[#[#...]]) rhopoints(#) taupoints(#) meshsize(#) centergrid(#) frank gaussian plackett joema nostderrors subsample(#) repetitions(#) instrument(varname) copulaparameter(varname) graph output([normal][bootstrap])]
  • depvar:被解释变量;
  • indepvars:不进入选择模型的解释变量;
  • select:必需,设定选择模型;
  • [depvar_s]:如果设定,那么需要设定为 0-1 哑变量。其中 0 表示无法观测,1 表示可被观测;
  • varlist_s:进入选择模型的变量;
  • quantiles:在特定分位数处进行估计,可设定多个;
  • rhopoints:定义 copula 参数网格搜索的候选点个数,默认为 19;
  • taupoints:用于近似目标函数的分位数的数目,默认为 3;
  • meshsize:网格大小参数,默认为 1;
  • centergrid:网格搜索参数,默认为 0;
  • frank:Frank copula 模型,默认选项;
  • gaussian:Gaussian copula 模型;
  • plackett:Plackett copula 模型;
  • joema:Joe & Ma (2000) copula 模型;
  • nostderrors:不计算标准误;
  • subsample:定义 bootstrap 标准误计算中用到的样本个数,默认为全部样本;
  • repetitions:bootstrap 重复次数,默认为 100;
  • fillfraction:bootstrap 参数,默认为 0.3;
  • instrument:设定 copula 参数估计时的工具变量,默认为第一步中的倾向得分参数;
  • copulaparameter:定义估计前的观测值的 copula 参数;
  • graph:画图,默认不输出;
  • output:输出表格基于正态或者 bootstrap 分布,默认为正态分布。

3. Stata实例

我们调用一份关于女性工资的调查数据集:


. webuse womenwk, clear

//数据中每个个体为一名女性,包括了其工资,以及其他一些人口地理学特征。其中一部分女性的工资为缺失值,意味着未进入劳动力市场。

/* 变量说明:
   county:居住的县
      age:年龄
education:受教育年限
  married:是否已婚
 children:12 岁以下孩子数量
     wage:小时工资
*/

首先我们使用传统的分位数回归命令 sqreg 来看一下教育对于不同工资分布区域女性的影响:

. sqreg wage educ age, quantile(.1 .5 .9)


(fitting base model)

Bootstrap replications (20)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5
....................

Simultaneous quantile regression               Number of obs =      1,343
  bootstrap(20) SEs                            .10 Pseudo R2 =     0.1068
                                               .50 Pseudo R2 =     0.1429
                                               .90 Pseudo R2 =     0.1523

-------------------------------------------------------------------------
             |            Bootstrap                                      
        wage |    Coef.   Std. Err.     t    P>|t|   [95% Conf. Interval]
-------------+-----------------------------------------------------------
q10          |                                                           
   education | .8578176   .1010446    8.49   0.000   .6595948     1.05604
         age | .1234271   .0252196    4.89   0.000    .073953    .1729012
       _cons | .5154006   1.971378    0.26   0.794  -3.351922    4.382723
-------------+-----------------------------------------------------------
q50          |                                                           
   education | .9064927    .096846    9.36   0.000   .7165064    1.096479
         age |  .160184   .0285698    5.61   0.000   .1041375    .2162305
       _cons | 5.312029   1.283163    4.14   0.000   2.794801    7.829256
-------------+-----------------------------------------------------------
q90          |                                                           
   education |  .930661   .0928315   10.03   0.000   .7485501    1.112772
         age | .1579835    .033773    4.68   0.000   .0917298    .2242373
       _cons | 12.20975   1.744174    7.00   0.000   8.788146    15.63136
-------------------------------------------------------------------------

结果显示,从 10% 分位数到 50% 分位数,再到 90% 分位数,受教育年限对工资的正向影响是逐步上升的,也就是说高工资女性群体中的教育回报率是大于低工资女性的。

但是以上分析没有考虑样本选择偏差。下面我们假设女性是否参与劳动力市场(工资是否被观测到)是由其婚姻状态、孩子数量、受教育年限以及年龄共同决定的,使用 arhomme 命令进行估计:

. ssc install arhomme

. arhomme wage educ age, select(married children educ age) quantile(.1 .5 .9)


option subsample left unspecified: subsample automatically set to 2000 (bootstrap)
use option nostderrors to disable estimation of covariance matrix

First step estimation (probit model) successfully completed.

Second step (gaussian copula parameter estimation) successfully completed.
Found objective function minimum 1.705e-05 for rho = -0.5903

Third step (minimization of rotated check function) successfully completed.

Initialising standard error estimation by 2000 out of 2000 bootstrap method:
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5
..................................................     50
..................................................    100

---------------------------------------------------------------------
Arellano & Bonhomme (2017) selection model
(conditional quantile regression with sample selection)
---------------------------------------------------------------------
                                        Number of obs.   =      2,000
                                        Num. of selected =      1,343
                                        Rho points       =         19
                                        Tau points       =          3
                                        Meshsize         =     1.0000
                                        Spearman's rho   =    -0.5723
                                        Kendall's tau    =    -0.4020
                                        Blomqvist's beta =    -0.4020
                                        Minimum Fval     =  1.705e-05
                                        Replications     =        100
                                        Subsample Size   =      2,000
---------------------------------------------------------------------
        wage |  Coef.  Std. Err.     z    P>|z|  [95% Conf. Interval]
-------------+-------------------------------------------------------
select       |                                                       
     married |  0.431     0.075    5.78   0.000     0.285       0.577
    children |  0.447     0.028   15.99   0.000     0.392       0.502
   education |  0.058     0.011    5.23   0.000     0.036       0.080
         age |  0.035     0.004    8.16   0.000     0.026       0.043
       _cons | -2.467     0.192  -12.88   0.000    -2.843      -2.092
-------------+-------------------------------------------------------
.1_quantile  |                                                       
       _cons | -8.754     3.475   -2.52   0.012   -15.565      -1.944
   education |  1.171     0.188    6.24   0.000     0.803       1.539
         age |  0.200     0.052    3.84   0.000     0.098       0.301
-------------+-------------------------------------------------------
.5_quantile  |                                                       
       _cons |  1.488     1.472    1.01   0.312    -1.397       4.373
   education |  0.992     0.074   13.36   0.000     0.847       1.138
         age |  0.192     0.026    7.41   0.000     0.141       0.243
-------------+-------------------------------------------------------
.9_quantile  |                                                       
       _cons |  9.156     1.255    7.30   0.000     6.696      11.616
   education |  0.884     0.079   11.14   0.000     0.728       1.039
         age |  0.223     0.024    9.46   0.000     0.177       0.270
-------------+-------------------------------------------------------
_anc         |                                                       
         rho | -0.590     0.088   -6.74   0.000    -0.762      -0.419
---------------------------------------------------------------------
note: parameter estimates based on Gaussian copula model

以上结果表明,与 sqreg 的估计结果不同,在修正了样本选择偏误之后,教育回报率并没有随着工资的上升而上升,反而出现了下降,由此可知提高低工资女性群体的受教育程度能够满足公平与效率的双重目标。

4. 结语

本文介绍的 arhomme 是 Martin Biewen & Pascal Erhardt (2020) 基于 Arellano & Bonhomme (2017) 文章开发的新命令,它可以在分位数回归的框架下修正样本选择偏误,并且相比于连享会之前分享过的 qregsel 命令,arhomme 不仅运行时间更短,而且还配有标准误选项,在便捷程度上大大超越了先前的命令。

5. 参考资料

  • Heckman 模型:你用对了吗?
  • Stata:分位数回归简介
  • Heckman J J. Sample selection bias as a specification error[J]. Econometrica: Journal of the econometric society, 1979, 47(1): 153-161. -PDF-
  • Arellano M, Bonhomme S. Quantile selection models with an application to understanding changes in wage inequality[J]. Econometrica, 2017, 85(1): 1-28. -PDF-
  • Martin Biewen & Pascal Erhardt, ARHOMME: Stata module to estimate Arellano and Bonhomme quantile selection model, Statistical Software Components S458890, Boston College Department of Economics, 2020. -Link-

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh Heckman 分位数
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh