Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:张蛟蛟 (上海海事大学)
邮箱:islimu@yeah.net
编者按:本文主要摘译自下文,特此感谢!
Source:D’Haultfœuille X, Maurel A, Qiu X, et al. Estimating selection models without an instrument with Stata[J]. The Stata Journal, 2020, 20(2): 297-308. -PDF-
目录
在计量经济学的文献中,有两种方法估计内生样本选择模型,即寻找工具变量或解释力强的变量。然而现实中,这两种方法都是困难的。为解决这一问题,D’Haultfœuille 等 (2019) 编写了 eqregsel
命令来实现内生样本选择模型的估计与推断。具体来看,eqregsel
命令是以 D’Haultfœuille 等 (2018) 提出的极值分位数回归方法为基础,即在结果变量分布的尾部实现一系列分位数回归。
eqregsel
命令是现有估计样本选择模型 heckman
命令的补充。与 heckman
相比,eqregsel
具有三个较为明显的特点:
接下来,本文将介绍 D’Haultfœuille 等 (2018) 提出的半参数内生选择模型,以及极值分位数回归中分位数指数的选择。然后,描述上述理论方法在 eqregsel
命令运行过程中的要点。最后,介绍 eqregsel
命令的语法与 Stata 实际操作。
首先,考虑以下结果模型:
其中
第一个关键条件:对任何
其中
因此,
第二个关键条件:在拥有 “大” 结果变量的条件下,选择是独立于协变量的。更确切地说,我们假设存在一个常数
结合式 (2) 和 (3),D’Haultfœuille 等 (2018) 表明,在
因此,式 (4) 表明我们可以通过运行
其中,
此时,形式上用
正如极值分位数回归的标准 (Chernozhukov 等,2017) ,收敛率并非通常的参数根
为说明这一点,用
以上结果都依赖两个主要条件,即式 (1) 和 (3)。但更重要的是,能基于 “
按照这个思路,考虑下面的
其中,
D’Haultfœuille 等 (2018) 定理 2.3 证明,对任意
极值分位数估计量的性能 (performance) 取决于方差与偏差之间的权衡,这由极值分位数回归中使用的分位数指数
具体来说,考虑与式 (6) 相同的检验统计量,但将其中
D’Haultfœuille 等 (2018) 证明,
这个思路是通过子抽样 (subsampling) 来估计此差异 (即
其中,
其中,
本部分主要总结如何在 eqregsel
中实现上述方法的一些关键点。首先,抽取
(a) 计算
设
(b) 计算
其中
(c) 对每个子样本
(d) 计算
(e) 计算
其次,计算
其中,
注意:实践中,考虑一个下限为
本部分主要介绍 egregsel
命令语法,以及使用 Stata 复现 D’Haultfœuille 等 (2018) 的相关结果。对于本文使用的数据和代码,大家可从压缩文件「dmqz_eqregsel.zip」中获取,或者通过连享会命令 lxhget egregsel.pkg, replace
。
egregsel
命令安装:
ssc install moremata, replace
lxhget egregsel.pkg, install replace
egregsel
命令语法:
eqregsel Y X1 X2 [if] [in][, hom(#) subs(#) grid(#) rep(#)]
基于 2.2 节详细叙述的由数据驱动的 eqregsel
可计算出 (2) 式中的 eqregsel
命令计算了 X1
为模型式 (2) 中进入 X2
为式 (2) 中进入
hom(#)
:指定 subs(#)
:指定子样本量 grid(#)
:指定 rep(#)
指定 eqregsel
命令将结果保存在以下 e()
中:
e(tau0)
:一个包含分位数指数 e(specificationtest)
:一个包含规范检验的 e(subs)
:一个包含子样本量 e(homvar)
:一个包含 e(beta_hom)
:一个包含感兴趣的估计系数的 e(sta_b)
:一个包含感兴趣的估计值标准误的 本部分通过使用 eqregsel
命令估计 D’Haultfœuille 等人 (2018) 提到的青年男性中黑人与白人之间的工资差距,来具体展示 eqregsel
命令在 Stata 中的实际操作。数据是 1979 年与 1997 年全国青年纵向调查数据 (分别用 NLSY79 和 NLSY97 指代这两年的调查数据)。这里关注的结果变量是工资的对数 (log_wage)。
规范检验时,分别在 NLSY79 与 NLSY97 两个样本中估计黑人虚拟变量 (blak) 对工资对数 (log_wage) 的影响,同时控制了西班牙虚拟变量 (hispanic)、年龄 (age)、AFQT 与 AFQT 的平方 (afqt 和 afqt2)。其中,由于考试方式的变化,导致 AFQT 不能在两个 NLSY 样本中直接比较。为解决这一问题,使用 Altonji 等 (2012) 提出的由等百分位数映射法构建的修改版 AFQT。同时还将样本限制在那些 16 或 17 岁时参加资格考试的受访者中,以解决 AFQT 分布中的等级可能会随受访者年龄而变化的问题。
NLSY79 和 NLSY97 的最终样本量分别为 1077 和 1123。这两个样本的总体劳动力参与率分别为 95.1% 和 89.7% 。而对于黑人男性,他们只达到 90.6% 和 81.4% 。此外,为区分两个 NLSY 样本,数据还生成了对应的两个虚拟变量:cohort79 与 cohort97。下面是利用 eqregsel
命令来估计两个 NLSY 样本中黑人与白人工资差距。
. lxhuse bw_nlsy7997.dta, clear
. gen afqt2=afqt^2
* Specification 1 (Black-white wage gap on the NLSY79 cohorts)
. eqregsel log_wage black hispanic age afqt afqt2 if cohort79
The estimation will take about 6 minutes.
|---------------|---------------|---------------|---------------|--------------|
0 20 40 60 80 100
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Number of observations = 1077
Optimal quantile index = .245
J test(p-value) = .81287468
Subsampling size used in bootstrapping = 515
Number of variables of interest = 1
------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
black | -.1185019 .0431142 -2.75 0.006 -.2030043 -.0339996
------------------------------------------------------------------------------
* Specification 2 (Black-white wage gap on the NLSY97 cohorts)
. eqregsel log_wage black hispanic age afqt afqt2 if cohort97
The estimation will take about 7.333333 minutes.
|---------------|---------------|---------------|---------------|--------------|
0 20 40 60 80 100
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Number of observations = 1123
Optimal quantile index = .29
J test(p-value) = .77565885
Subsampling size used in bootstrapping = 524
Number of variables of interest = 1
------------------------------------------------------------------------------
| Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
black | -.1588783 .0406563 -3.91 0.000 -.2385632 -.0791935
------------------------------------------------------------------------------
从估计结果可以看出,在总样本量为 1077 和 1123 的情况下,用于 bootstrap 的默认子样本量分别为 515 和 524。同时,eqregsel
命令还显示了程序运行的计算时间以及进度条。如果需要,可以通过设置较少的 bootstrap 和子抽样重复次数,或者较少的网格点数量来节省执行命令的时间。
估计结果表明,两个样本中黑人与白人的工资差距在统计上和经济上都十分显著。同时,相对于 1979 年的样本,1997 年的样本中黑人与白人之间的工资差距更大,即从 1979 年的 11.9% 上升到 1997 年的 15.9%。但这一差异并不显著 (
另外,D'Haultfœuille 等 (2018) 还利用上述方法估计时薪对黑人虚拟变量的影响,将这样估计得到的工资差距与简单 OLS 回归的结果相比,工资差距从 11.9% 和 15.9% 下降到 8.1% 和 9.7% (标准误差等于 0.035 和 0.041)。当使用上述方法时,所估计的工资差距在幅度上更大,可以认为这与潜在的样本选择问题是一致的。事实上,在男性中,黑人更有可能退出劳动力市场 (Juhn, 2003)。由于辍学者往往有较低的潜在工资,不控制劳动力市场参与的内生性会导致低估黑人与白人之间的工资差距。
Note:产生如下推文列表的 Stata 命令为:
lianxh 工具变量, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh