
New! 搜推文,找资料,用
lianxh
命令:
安装:ssc install lianxh, replace
使用:lianxh 合成控制
lianxh DID + 多期, w


⛳ Stata 系列推文:
- 全部 | Stata入门 | Stata教程 | Stata资源 | Stata命令
- 计量专题 | 论文写作 | 数据分享 | 专题课程
- 结果输出 | Stata绘图 | 数据处理 | Stata程序
- 回归分析 | 面板数据 | 交乘项-调节 | IV-GMM
- 内生性-因果推断 | 倍分法DID | 断点回归RDD | PSM-Matching | 合成控制法
- Probit-Logit | 时间序列 | 空间计量 | 分位数回归 | 生存分析 | SFA-DEA
- 文本分析-爬虫 | Python-R-Matlab | 机器学习
- Markdown | 工具软件 | 其它
作者: 徐云娇 (厦门大学)
邮箱: jilyo@stu.xmu.edu.cn
目录
[[TOC]]
1. 背景介绍
样本选择问题:研究样本是经过内生选择的,从而根据这些样本数据所估计的参数就不能准确反映总体性质的分布。以妇女的工资状况为例,由于未参加工作的妇女没有工资数据,所以我们的样本中只包含了就业妇女的薪资水平,用这部分劳动妇女的数据进行回归得到的系数很可能存在偏误。下面用因果图简要说明偏误的来源:

上图中,干扰因素 和教育水平共同影响着妇女参加工作的效用,而效用是一个被控制住的变量 (只有当效用大于 0 的妇女才会参加工作),所以此时 和教育在样本中产生了相关性,出现了一条衍生路径 “教育 ··· ”,那么教育与工资之间便有了两条路径:一条是因果路径 “教育 工资”;另一条是混淆路径 “教育 ··· 工资”。假如不考虑混淆路径直接进行回归,估计出的系数就会存在样本选择偏差。
当存在样本选择问题时,我们该如何修正估计系数的偏差呢?
-
Heckman (1979) 给出了条件均值回归下的修正方法,这便是大家所熟知的 Heckman 两步法 (微信版);
-
基于分位数回归框架的研究相对落后,Arellano & Bonhomme (2017) 是首篇给出一般性纠偏方法的文章。
本推文介绍的新命令 arhomme
便是 Martin Biewen & Pascal Erhardt (2020) 在此基础之上开发的 Stata 新命令。
2. arhomme
命令介绍
2.1 理论部分
Arellano & Bonhomme (2017) 提出了分位数回归中修正样本选择偏差的方法,模型设定如下:
(1)
(2)
(3) $Y=Y^{*} $ $ D=1$
其中, 为潜在收入, 为指示变量 (等于 1 时代表个体参与劳动力市场), 和 是误差项, 中包含 变量,并且还包括协变量 。我们可以观测到 ,所以潜在收入 只有在 时才可被观测到。本模型中,样本选择偏差的来源是 和 之间存在相关性。
修正的过程具体可分为以下三个步骤:
Step1: 估计倾向得分参数
这一步中利用了 Probit 模型进行最大似然估计,可以得到倾向得分参数 的一致估计量 ,用于下面两步中。
Step2: 估计 copula 参数
在基础模型的假设之下 (具体细节可见论文),可以推导得到 的条件累积分布函数 (CDF):
其中, 是条件 copula 函数,它衡量了 和 之间的相关性,即样本选择偏差的来源。
为进一步分析,假设 copula 函数是由参数向量 复合而成的,即:
根据 (5) 式便有矩条件:
其中, 是关于参数 的已知方程。
接下去结合第一步中估计得到的 ,通过最小化矩条件来估计 Copla 参数 :
其中, 分布于 (0,1), 代表的是欧氏距离, 是定义的工具方程,并且还有:
Step3: 修正的分位数回归
在得到了 与 之后,对任意的 ,都可计算:
其中,
我们可以比较修正的分位数回归的 与普通分位数回归的 :
以上可见,为了修正样本选择偏差,传统分位数回归中的 被 所替代了。
2.2 语法结构
arhomme
命令是 Martin Biewen & Pascal Erhardt (2020) 根据以上估计方法所编写的 Stata 命令,其语法结构如下:
qregsel depvar indepvars [if] [in] [weight], select([depvar_s =] varlist_s])[quantiles(#[#[#...]]) rhopoints(#) taupoints(#) meshsize(#) centergrid(#) frank gaussian plackett joema nostderrors subsample(#) repetitions(#) instrument(varname) copulaparameter(varname) graph output([normal][bootstrap])]
depvar
:被解释变量;indepvars
:不进入选择模型的解释变量;select
:必需,设定选择模型;[depvar_s]
:如果设定,那么需要设定为 0-1 哑变量。其中 0 表示无法观测,1 表示可被观测;varlist_s
:进入选择模型的变量;quantiles
:在特定分位数处进行估计,可设定多个;rhopoints
:定义 copula 参数网格搜索的候选点个数,默认为 19;taupoints
:用于近似目标函数的分位数的数目,默认为 3;meshsize
:网格大小参数,默认为 1;centergrid
:网格搜索参数,默认为 0;frank
:Frank copula 模型,默认选项;gaussian
:Gaussian copula 模型;plackett
:Plackett copula 模型;joema
:Joe & Ma (2000) copula 模型;nostderrors
:不计算标准误;subsample
:定义 bootstrap 标准误计算中用到的样本个数,默认为全部样本;repetitions
:bootstrap 重复次数,默认为 100;fillfraction
:bootstrap 参数,默认为 0.3;instrument
:设定 copula 参数估计时的工具变量,默认为第一步中的倾向得分参数;copulaparameter
:定义估计前的观测值的 copula 参数;graph
:画图,默认不输出;output
:输出表格基于正态或者 bootstrap 分布,默认为正态分布。
3. Stata
实例
我们调用一份关于女性工资的调查数据集:
. webuse womenwk, clear
//数据中每个个体为一名女性,包括了其工资,以及其他一些人口地理学特征。其中一部分女性的工资为缺失值,意味着未进入劳动力市场。
/* 变量说明:
county:居住的县
age:年龄
education:受教育年限
married:是否已婚
children:12 岁以下孩子数量
wage:小时工资
*/
首先我们使用传统的分位数回归命令 sqreg
来看一下教育对于不同工资分布区域女性的影响:
. sqreg wage educ age, quantile(.1 .5 .9)
(fitting base model)
Bootstrap replications (20)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5
....................
Simultaneous quantile regression Number of obs = 1,343
bootstrap(20) SEs .10 Pseudo R2 = 0.1068
.50 Pseudo R2 = 0.1429
.90 Pseudo R2 = 0.1523
-------------------------------------------------------------------------
| Bootstrap
wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+-----------------------------------------------------------
q10 |
education | .8578176 .1010446 8.49 0.000 .6595948 1.05604
age | .1234271 .0252196 4.89 0.000 .073953 .1729012
_cons | .5154006 1.971378 0.26 0.794 -3.351922 4.382723
-------------+-----------------------------------------------------------
q50 |
education | .9064927 .096846 9.36 0.000 .7165064 1.096479
age | .160184 .0285698 5.61 0.000 .1041375 .2162305
_cons | 5.312029 1.283163 4.14 0.000 2.794801 7.829256
-------------+-----------------------------------------------------------
q90 |
education | .930661 .0928315 10.03 0.000 .7485501 1.112772
age | .1579835 .033773 4.68 0.000 .0917298 .2242373
_cons | 12.20975 1.744174 7.00 0.000 8.788146 15.63136
-------------------------------------------------------------------------
结果显示,从 10% 分位数到 50% 分位数,再到 90% 分位数,受教育年限对工资的正向影响是逐步上升的,也就是说高工资女性群体中的教育回报率是大于低工资女性的。
但是以上分析没有考虑样本选择偏差。下面我们假设女性是否参与劳动力市场(工资是否被观测到)是由其婚姻状态、孩子数量、受教育年限以及年龄共同决定的,使用 arhomme
命令进行估计:
. ssc install arhomme
. arhomme wage educ age, select(married children educ age) quantile(.1 .5 .9)
option subsample left unspecified: subsample automatically set to 2000 (bootstrap)
use option nostderrors to disable estimation of covariance matrix
First step estimation (probit model) successfully completed.
Second step (gaussian copula parameter estimation) successfully completed.
Found objective function minimum 1.705e-05 for rho = -0.5903
Third step (minimization of rotated check function) successfully completed.
Initialising standard error estimation by 2000 out of 2000 bootstrap method:
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5
.................................................. 50
.................................................. 100
---------------------------------------------------------------------
Arellano & Bonhomme (2017) selection model
(conditional quantile regression with sample selection)
---------------------------------------------------------------------
Number of obs. = 2,000
Num. of selected = 1,343
Rho points = 19
Tau points = 3
Meshsize = 1.0000
Spearman's rho = -0.5723
Kendall's tau = -0.4020
Blomqvist's beta = -0.4020
Minimum Fval = 1.705e-05
Replications = 100
Subsample Size = 2,000
---------------------------------------------------------------------
wage | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+-------------------------------------------------------
select |
married | 0.431 0.075 5.78 0.000 0.285 0.577
children | 0.447 0.028 15.99 0.000 0.392 0.502
education | 0.058 0.011 5.23 0.000 0.036 0.080
age | 0.035 0.004 8.16 0.000 0.026 0.043
_cons | -2.467 0.192 -12.88 0.000 -2.843 -2.092
-------------+-------------------------------------------------------
.1_quantile |
_cons | -8.754 3.475 -2.52 0.012 -15.565 -1.944
education | 1.171 0.188 6.24 0.000 0.803 1.539
age | 0.200 0.052 3.84 0.000 0.098 0.301
-------------+-------------------------------------------------------
.5_quantile |
_cons | 1.488 1.472 1.01 0.312 -1.397 4.373
education | 0.992 0.074 13.36 0.000 0.847 1.138
age | 0.192 0.026 7.41 0.000 0.141 0.243
-------------+-------------------------------------------------------
.9_quantile |
_cons | 9.156 1.255 7.30 0.000 6.696 11.616
education | 0.884 0.079 11.14 0.000 0.728 1.039
age | 0.223 0.024 9.46 0.000 0.177 0.270
-------------+-------------------------------------------------------
_anc |
rho | -0.590 0.088 -6.74 0.000 -0.762 -0.419
---------------------------------------------------------------------
note: parameter estimates based on Gaussian copula model
以上结果表明,与 sqreg
的估计结果不同,在修正了样本选择偏误之后,教育回报率并没有随着工资的上升而上升,反而出现了下降,由此可知提高低工资女性群体的受教育程度能够满足公平与效率的双重目标。
4. 结语
本文介绍的 arhomme
是 Martin Biewen & Pascal Erhardt (2020) 基于 Arellano & Bonhomme (2017) 文章开发的新命令,它可以在分位数回归的框架下修正样本选择偏误,并且相比于连享会之前分享过的 qregsel
命令,arhomme
不仅运行时间更短,而且还配有标准误选项,在便捷程度上大大超越了先前的命令。
5. 参考资料
- Heckman 模型:你用对了吗?
- Stata:分位数回归简介
- Heckman J J. Sample selection bias as a specification error[J]. Econometrica: Journal of the econometric society, 1979, 47(1): 153-161. -PDF-
- Arellano M, Bonhomme S. Quantile selection models with an application to understanding changes in wage inequality[J]. Econometrica, 2017, 85(1): 1-28. -PDF-
- Martin Biewen & Pascal Erhardt, ARHOMME: Stata module to estimate Arellano and Bonhomme quantile selection model, Statistical Software Components S458890, Boston College Department of Economics, 2020. -Link-
6. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh Heckman 分位数
安装最新版lianxh
命令:
ssc install lianxh, replace



资源共享
- 连享会资料 ……
- 在线视频:lianxh-class.cn
- Stata 33 讲,100 万+ 播放,Stata 入门必备,公开课
- 直击面板数据模型,10 万+ 播放,白话面板模型,公开课
- … more …
- 论文复现和数据
- 主题分类
- 热门推文

尊敬的老师 / 亲爱的同学们:
连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。
请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。
我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!

关于我们
- Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。more……
- 扫码加入连享会微信群,提问交流更方便
