温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装命令如下:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
⛳ Stata 系列推文:
作者: 徐云娇 (厦门大学)
邮箱: jilyo@stu.xmu.edu.cn
目录
样本选择问题:研究样本是经过内生选择的,从而根据这些样本数据所估计的参数就不能准确反映总体性质的分布。以妇女的工资状况为例,由于未参加工作的妇女没有工资数据,所以我们的样本中只包含了就业妇女的薪资水平,用这部分劳动妇女的数据进行回归得到的系数很可能存在偏误。下面用因果图简要说明偏误的来源:
上图中,干扰因素
当存在样本选择问题时,我们该如何修正估计系数的偏差呢?
Heckman (1979) 给出了条件均值回归下的修正方法,这便是大家所熟知的 Heckman 两步法 (微信版);
基于分位数回归框架的研究相对落后,Arellano & Bonhomme (2017) 是首篇给出一般性纠偏方法的文章。
本推文介绍的新命令 arhomme
便是 Martin Biewen & Pascal Erhardt (2020) 在此基础之上开发的 Stata 新命令。
arhomme
命令介绍Arellano & Bonhomme (2017) 提出了分位数回归中修正样本选择偏差的方法,模型设定如下:
(1)
其中,
修正的过程具体可分为以下三个步骤:
Step1: 估计倾向得分参数
这一步中利用了 Probit 模型进行最大似然估计,可以得到倾向得分参数
Step2: 估计 copula 参数
在基础模型的假设之下 (具体细节可见论文),可以推导得到
其中,
为进一步分析,假设 copula 函数是由参数向量
根据 (5) 式便有矩条件:
其中,
接下去结合第一步中估计得到的
其中,
Step3: 修正的分位数回归
在得到了
其中,
我们可以比较修正的分位数回归的
以上可见,为了修正样本选择偏差,传统分位数回归中的
arhomme
命令是 Martin Biewen & Pascal Erhardt (2020) 根据以上估计方法所编写的 Stata 命令,其语法结构如下:
qregsel depvar indepvars [if] [in] [weight], select([depvar_s =] varlist_s])[quantiles(#[#[#...]]) rhopoints(#) taupoints(#) meshsize(#) centergrid(#) frank gaussian plackett joema nostderrors subsample(#) repetitions(#) instrument(varname) copulaparameter(varname) graph output([normal][bootstrap])]
depvar
:被解释变量;indepvars
:不进入选择模型的解释变量;select
:必需,设定选择模型;[depvar_s]
:如果设定,那么需要设定为 0-1 哑变量。其中 0 表示无法观测,1 表示可被观测;varlist_s
:进入选择模型的变量;quantiles
:在特定分位数处进行估计,可设定多个;rhopoints
:定义 copula 参数网格搜索的候选点个数,默认为 19;taupoints
:用于近似目标函数的分位数的数目,默认为 3;meshsize
:网格大小参数,默认为 1;centergrid
:网格搜索参数,默认为 0;frank
:Frank copula 模型,默认选项;gaussian
:Gaussian copula 模型;plackett
:Plackett copula 模型;joema
:Joe & Ma (2000) copula 模型;nostderrors
:不计算标准误;subsample
:定义 bootstrap 标准误计算中用到的样本个数,默认为全部样本;repetitions
:bootstrap 重复次数,默认为 100;fillfraction
:bootstrap 参数,默认为 0.3;instrument
:设定 copula 参数估计时的工具变量,默认为第一步中的倾向得分参数;copulaparameter
:定义估计前的观测值的 copula 参数;graph
:画图,默认不输出;output
:输出表格基于正态或者 bootstrap 分布,默认为正态分布。
Stata
实例我们调用一份关于女性工资的调查数据集:
. webuse womenwk, clear
//数据中每个个体为一名女性,包括了其工资,以及其他一些人口地理学特征。其中一部分女性的工资为缺失值,意味着未进入劳动力市场。
/* 变量说明:
county:居住的县
age:年龄
education:受教育年限
married:是否已婚
children:12 岁以下孩子数量
wage:小时工资
*/
首先我们使用传统的分位数回归命令 sqreg
来看一下教育对于不同工资分布区域女性的影响:
. sqreg wage educ age, quantile(.1 .5 .9)
(fitting base model)
Bootstrap replications (20)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5
....................
Simultaneous quantile regression Number of obs = 1,343
bootstrap(20) SEs .10 Pseudo R2 = 0.1068
.50 Pseudo R2 = 0.1429
.90 Pseudo R2 = 0.1523
-------------------------------------------------------------------------
| Bootstrap
wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+-----------------------------------------------------------
q10 |
education | .8578176 .1010446 8.49 0.000 .6595948 1.05604
age | .1234271 .0252196 4.89 0.000 .073953 .1729012
_cons | .5154006 1.971378 0.26 0.794 -3.351922 4.382723
-------------+-----------------------------------------------------------
q50 |
education | .9064927 .096846 9.36 0.000 .7165064 1.096479
age | .160184 .0285698 5.61 0.000 .1041375 .2162305
_cons | 5.312029 1.283163 4.14 0.000 2.794801 7.829256
-------------+-----------------------------------------------------------
q90 |
education | .930661 .0928315 10.03 0.000 .7485501 1.112772
age | .1579835 .033773 4.68 0.000 .0917298 .2242373
_cons | 12.20975 1.744174 7.00 0.000 8.788146 15.63136
-------------------------------------------------------------------------
结果显示,从 10% 分位数到 50% 分位数,再到 90% 分位数,受教育年限对工资的正向影响是逐步上升的,也就是说高工资女性群体中的教育回报率是大于低工资女性的。
但是以上分析没有考虑样本选择偏差。下面我们假设女性是否参与劳动力市场(工资是否被观测到)是由其婚姻状态、孩子数量、受教育年限以及年龄共同决定的,使用 arhomme
命令进行估计:
. ssc install arhomme
. arhomme wage educ age, select(married children educ age) quantile(.1 .5 .9)
option subsample left unspecified: subsample automatically set to 2000 (bootstrap)
use option nostderrors to disable estimation of covariance matrix
First step estimation (probit model) successfully completed.
Second step (gaussian copula parameter estimation) successfully completed.
Found objective function minimum 1.705e-05 for rho = -0.5903
Third step (minimization of rotated check function) successfully completed.
Initialising standard error estimation by 2000 out of 2000 bootstrap method:
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5
.................................................. 50
.................................................. 100
---------------------------------------------------------------------
Arellano & Bonhomme (2017) selection model
(conditional quantile regression with sample selection)
---------------------------------------------------------------------
Number of obs. = 2,000
Num. of selected = 1,343
Rho points = 19
Tau points = 3
Meshsize = 1.0000
Spearman's rho = -0.5723
Kendall's tau = -0.4020
Blomqvist's beta = -0.4020
Minimum Fval = 1.705e-05
Replications = 100
Subsample Size = 2,000
---------------------------------------------------------------------
wage | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+-------------------------------------------------------
select |
married | 0.431 0.075 5.78 0.000 0.285 0.577
children | 0.447 0.028 15.99 0.000 0.392 0.502
education | 0.058 0.011 5.23 0.000 0.036 0.080
age | 0.035 0.004 8.16 0.000 0.026 0.043
_cons | -2.467 0.192 -12.88 0.000 -2.843 -2.092
-------------+-------------------------------------------------------
.1_quantile |
_cons | -8.754 3.475 -2.52 0.012 -15.565 -1.944
education | 1.171 0.188 6.24 0.000 0.803 1.539
age | 0.200 0.052 3.84 0.000 0.098 0.301
-------------+-------------------------------------------------------
.5_quantile |
_cons | 1.488 1.472 1.01 0.312 -1.397 4.373
education | 0.992 0.074 13.36 0.000 0.847 1.138
age | 0.192 0.026 7.41 0.000 0.141 0.243
-------------+-------------------------------------------------------
.9_quantile |
_cons | 9.156 1.255 7.30 0.000 6.696 11.616
education | 0.884 0.079 11.14 0.000 0.728 1.039
age | 0.223 0.024 9.46 0.000 0.177 0.270
-------------+-------------------------------------------------------
_anc |
rho | -0.590 0.088 -6.74 0.000 -0.762 -0.419
---------------------------------------------------------------------
note: parameter estimates based on Gaussian copula model
以上结果表明,与 sqreg
的估计结果不同,在修正了样本选择偏误之后,教育回报率并没有随着工资的上升而上升,反而出现了下降,由此可知提高低工资女性群体的受教育程度能够满足公平与效率的双重目标。
本文介绍的 arhomme
是 Martin Biewen & Pascal Erhardt (2020) 基于 Arellano & Bonhomme (2017) 文章开发的新命令,它可以在分位数回归的框架下修正样本选择偏误,并且相比于连享会之前分享过的 qregsel
命令,arhomme
不仅运行时间更短,而且还配有标准误选项,在便捷程度上大大超越了先前的命令。
Note:产生如下推文列表的 Stata 命令为:
lianxh Heckman 分位数
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh