Stata:无需IV的自选择模型-egregsel

发布时间:2022-05-05 阅读 1336

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:张蛟蛟 (上海海事大学)
邮箱islimu@yeah.net

编者按:本文主要摘译自下文,特此感谢!
Source:D’Haultfœuille X, Maurel A, Qiu X, et al. Estimating selection models without an instrument with Stata[J]. The Stata Journal, 2020, 20(2): 297-308. -PDF-


目录


1. 引言

在计量经济学的文献中,有两种方法估计内生样本选择模型,即寻找工具变量或解释力强的变量。然而现实中,这两种方法都是困难的。为解决这一问题,D’Haultfœuille 等 (2019) 编写了 eqregsel 命令来实现内生样本选择模型的估计与推断。具体来看,eqregsel 命令是以 D’Haultfœuille 等 (2018) 提出的极值分位数回归方法为基础,即在结果变量分布的尾部实现一系列分位数回归。

eqregsel 命令是现有估计样本选择模型 heckman 命令的补充。与 heckman 相比,eqregsel 具有三个较为明显的特点:

  • 第一,它不要求选择方程中误差项的正态性,也不要求结果方程中误差项条件期望的线性程度;
  • 第二,除了一个无穷大的独立条件之外,它不限制选择过程;
  • 第三,它允许其他控制变量的异质性分布效应。

接下来,本文将介绍 D’Haultfœuille 等 (2018) 提出的半参数内生选择模型,以及极值分位数回归中分位数指数的选择。然后,描述上述理论方法在 eqregsel 命令运行过程中的要点。最后,介绍 eqregsel 命令的语法与 Stata 实际操作。

2. 理论模型与估计

2.1 半参数内生选择模型

首先,考虑以下结果模型:

其中 YR 和 X1Rd1 分别是感兴趣的结果变量和协变量。估计 β1 是我们的目的,为实现此目的,需要依赖两个关键条件:

第一个关键条件:对任何 τ(0,1)ε 的第 τ 个条件分位数需满足:

其中 X=(X1,X2)X2 是其他协变量。那么:

因此,X1 的影响被假设为在不同分位数指数上都是同质的,但允许其他协变量 X2 的影响在 Y 的分布上是异质的。然而 Y 不能被直接观察到。因此用 D 表示选择虚拟变量 (selection dummy),这时能观察到 DY=DY 和 X

第二个关键条件:在拥有 “大” 结果变量的条件下,选择是独立于协变量的。更确切地说,我们假设存在一个常数 h(0,1] 使得对所有 xSupp(X) 都有:

结合式 (2) 和 (3),D’Haultfœuille 等 (2018) 表明,在 ε 上尾的一些正则条件下,随着 τ0

因此,式 (4) 表明我们可以通过运行 Y 对一个有着足够小分位数指数 τ 的 X 的分位数回归来估计 β1,即:

其中,ρτ(u)=(τ1{u<0})u 是分位数回归的检查函数 (check function),且 X¯i=(X1i,1,X2i)。直觉上,为使 β^1 一致,τ 应该依赖于 n 且随着 n 趋于无穷而趋于0。但 τ 也不应太快地趋于 0,否则极限分位数回归将不稳定。

此时,形式上用 τn 表示分位数指数,D’Haultfœuille 等 (2018) 认为,若 τn0 且 nτn,并在额外的技术限制下,β^1 是一致且渐进正态的。

正如极值分位数回归的标准 (Chernozhukov 等,2017) ,收敛率并非通常的参数根 n 率。并且,在这种情况下,此收敛率取决于 (D,Y,X) 分布的未知特征。但 D’Haultfœuille 等 (2018) 认为,bootstrap 对推断来说是一致的,不需要知道收敛率。

为说明这一点,用 qγ 表示 bootstrap 估计量 β^1 的 γ 阶分位数,简单起见,假设 X1 是一个标量 (d1=1)。那么,根据 D’Haultfœuille 等 (2018) 定理 2 可知,β1 的百分位 bootstrap 置信区间 [qα/2,q1α/2] 有一个 1α 的渐进覆盖率。而这样一个区间不需要知道收敛率。

以上结果都依赖两个主要条件,即式 (1) 和 (3)。但更重要的是,能基于 “QYX(τnX) 中系数 β1 在不同的分位数指数 τn 上相同 (见 式 4)” 这一含义,对这些条件发展出一套规范性检验。那么,如果模型设定正确,分别由 τ=τn 和 τ=τn 得到的 β1 的两个估计值 β^1(τn) (with 0<<1)β^1(τn) 应该是接近的。

按照这个思路,考虑下面的 J 检验统计量:

其中,Ω^ 是 β^1(τn) 渐进协方差的 (bootstrap) 估计量,且鉴于上述讨论,依据收敛率进行恰当地标准化。然后只要 TJ()>qd1(1α) 就能在名义水平 α 上拒绝该检验。其中 qd1(1α) 是一个有 d1 个自由度的 χ2 分布的 1α 阶分位数。

D’Haultfœuille 等 (2018) 定理 2.3 证明,对任意 0<<1,此检验有一个 α 的渐进水平。它还证明在一些局部替代方案下,局部力量在 =argmax[0,1][ln(l)]2/(1)0.2 时达到最大。

2.2 极值分位数回归中分位数指数的选择

极值分位数估计量的性能 (performance) 取决于方差与偏差之间的权衡,这由极值分位数回归中使用的分位数指数 τn 决定。下面介绍 D’Haultfœuille 等 (2018) 描述的算法,该算法基于 β^1 的方差与偏差估计量来选择一个合适的分位数指数。

具体来说,考虑与式 (6) 相同的检验统计量,但将其中 (τn,τn) 替换为 (1τn,2τn),且 1<1<2

D’Haultfœuille 等 (2018) 证明,TJ(τ) 的中位数与一个自由度为 d1 的卡方分布的中位数之间的差异,可以作为此估计量的偏差的一个代理 (a proxy)。

这个思路是通过子抽样 (subsampling) 来估计此差异 (即 TJ(τ) 的中位数与自由度为 d1 的卡方分布的中位数之间的差异)。对网格 G 内的每个子样本和每个分位数指数 τ,都可以计算 TJ(τ)。设 Msub(τ) 表示给定一个 τ 的不同子样本上的这些检验统计量的中位数,设 Md1 表示自由度为 d1 的卡方分布的中位数。那么,这个偏差的代理被定义为:

其中,bn 是指子样本量。同样地,渐进协方差矩阵由 β1 的子样本估计量的协方差矩阵与标准化因子 bn/n 的乘积来估计。我们用 Var^n(τ) 来表示该协方差矩阵对角线元素的和。那么,选择去优化偏差-方差间的权衡的分位数指数为:

其中,G 是指 (0,1) 内的一个有限网格。与方差和平方偏差 (squared bias) 之间更标准的权衡相比,这个程序导致了欠平滑。与非参数回归的情况相似,这需要控制渐进偏差,否则会影响该估计量的极限分布。参考 D’Haultfœuille 等 (2018) 的模拟证据,这种分位数指数的选择会使估计量既准确又只有非常微小的偏差,从而能够获得对 β1 的可靠推断。

3. 实际操作要点

本部分主要总结如何在 eqregsel 中实现上述方法的一些关键点。首先,抽取 B 个 bootstrap 样本和 B 个大小为 bn 的子样本。然后,对每个 τG

(a) 计算 β(τ)=(β1,β0(1τ/h),β2(1τ/h)) 的估计量:

设 β1^(τ) 为 由 β^(τ) 的第一个 d1 分量组成的向量。

(b) 计算

其中 β^1b(τ) 是 β1 在第 b 个 bootstrap 样本上的 bootstrap 估计量。

(c) 对每个子样本 s=1B,计算 β1 的估计量 (β^1s(τ)) 和 J 检验统计量:

(d) 计算 diff^n(τ)=|Msub(τ)Md1|bnτ,其中 Msub(τ) 表示 (TJ1(τ),,TJB(τ)) 的中位数。

(e) 计算 Var^n(τ)=(bn/n)k=1d1Σ^(τ)kk,其中 Σ^(τ)kk 是指下式的第 k 个对角项:

其次,计算 τ^n=argminτGVar^n(τ)+diff^n(τ)。再其次,设 β^1=β^1(τ^n)Ω^=Ω^(τ^n),那么 β1 第 k 个分量的 1α 水平的置信区间 CI1α(β1k) 等于:

其中,Ω^kk 是 Ω^ 的第 k 个对角项,z1α/2 则是一个标准正态变量的 1α/2 阶分位数。最后,计算 β^1(0.2τ^n) 以及由式 (6) 定义的 TJ(0.2),以执行模型的规范检验。

注意:实践中,考虑一个下限为 min(0.1,80/bn)、上限为 0.3 且有一些点与 nG 相等的等距网格 G。这样设置该下限的目的是,如果有效子样本量 τbn 变得太小,那么中阶渐进理论很可能是一个糟糕的近似 (见 Chernozhukov 和 Fernandez-Val (2011) 相关讨论)。此外,为计算上述步骤 (c) 中的 TJs(τ),使用 (1,2)=(0.9,1.1)

4. Stata 实例

本部分主要介绍 egregsel命令语法,以及使用 Stata 复现 D’Haultfœuille 等 (2018) 的相关结果。对于本文使用的数据和代码,大家可从压缩文件「dmqz_eqregsel.zip」中获取,或者通过连享会命令 lxhget egregsel.pkg, replace

4.1 egregsel 命令介绍

egregsel 命令安装:

ssc install moremata, replace
lxhget egregsel.pkg, install replace

egregsel 命令语法:

eqregsel Y X1 X2 [if] [in][, hom(#) subs(#) grid(#) rep(#)]

基于 2.2 节详细叙述的由数据驱动的 τneqregsel 可计算出 (2) 式中的 β^1。同时还报告了其标准误和 95% 的置信区间。最后 eqregsel 命令计算了 =0.2 时此规范检验的 p 值。对于上述命令语句,X1 为模型式 (2) 中进入 X1 的变量,X2 为式 (2) 中进入 X2 的变量。主要选项如下:

  • hom(#):指定 d1,即 X1 中变量的数量。此代码返回这些变量的估计效应与标准误,默认值为 1;
  • subs(#):指定子样本量 bn。根据 D’Haultfœuille 等 (2018),让 x+=max(0,x),那么 bn 的默认值被设置为:
  • grid(#):指定 nG,即网格点的数量,默认值为 40;
  • rep(#) 指定 B,即 bootstrap 和子抽样重复的数量,默认值为 150。

eqregsel 命令将结果保存在以下 e() 中:

  • e(tau0):一个包含分位数指数 τ^n 的标量;
  • e(specificationtest):一个包含规范检验的 p 值的标量;
  • e(subs):一个包含子样本量 bn 的标量;
  • e(homvar):一个包含 d1 的标量,即对结果具有同质效应的变量数量;
  • e(beta_hom):一个包含感兴趣的估计系数的 d1×1 矩阵;
  • e(sta_b):一个包含感兴趣的估计值标准误的 d1×1 矩阵。

4.2 Stata 实际操作

本部分通过使用 eqregsel 命令估计 D’Haultfœuille 等人 (2018) 提到的青年男性中黑人与白人之间的工资差距,来具体展示 eqregsel 命令在 Stata 中的实际操作。数据是 1979 年与 1997 年全国青年纵向调查数据 (分别用 NLSY79 和 NLSY97 指代这两年的调查数据)。这里关注的结果变量是工资的对数 (log_wage)。

规范检验时,分别在 NLSY79 与 NLSY97 两个样本中估计黑人虚拟变量 (blak) 对工资对数 (log_wage) 的影响,同时控制了西班牙虚拟变量 (hispanic)、年龄 (age)、AFQT 与 AFQT 的平方 (afqtafqt2)。其中,由于考试方式的变化,导致 AFQT 不能在两个 NLSY 样本中直接比较。为解决这一问题,使用 Altonji 等 (2012) 提出的由等百分位数映射法构建的修改版 AFQT。同时还将样本限制在那些 16 或 17 岁时参加资格考试的受访者中,以解决 AFQT 分布中的等级可能会随受访者年龄而变化的问题。

NLSY79 和 NLSY97 的最终样本量分别为 1077 和 1123。这两个样本的总体劳动力参与率分别为 95.1% 和 89.7% 。而对于黑人男性,他们只达到 90.6% 和 81.4% 。此外,为区分两个 NLSY 样本,数据还生成了对应的两个虚拟变量:cohort79cohort97。下面是利用 eqregsel 命令来估计两个 NLSY 样本中黑人与白人工资差距。

. lxhuse bw_nlsy7997.dta, clear
. gen afqt2=afqt^2

* Specification 1 (Black-white wage gap on the NLSY79 cohorts)
. eqregsel log_wage black hispanic age afqt afqt2 if cohort79

The estimation will take about 6 minutes.
|---------------|---------------|---------------|---------------|--------------|
0              20              40              60              80            100
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
Number of observations =       1077
Optimal quantile index =       .245
J test(p-value) =  .81287468
Subsampling size used in bootstrapping =        515
Number of variables of interest =          1
------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       black |  -.1185019   .0431142    -2.75   0.006    -.2030043   -.0339996
------------------------------------------------------------------------------

* Specification 2 (Black-white wage gap on the NLSY97 cohorts)
. eqregsel log_wage black hispanic age afqt afqt2 if cohort97

The estimation will take about 7.333333 minutes.
|---------------|---------------|---------------|---------------|--------------|
0              20              40              60              80            100
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
Number of observations =       1123
Optimal quantile index =        .29
J test(p-value) =  .77565885
Subsampling size used in bootstrapping =        524
Number of variables of interest =          1
------------------------------------------------------------------------------
             |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       black |  -.1588783   .0406563    -3.91   0.000    -.2385632   -.0791935
------------------------------------------------------------------------------

从估计结果可以看出,在总样本量为 1077 和 1123 的情况下,用于 bootstrap 的默认子样本量分别为 515 和 524。同时,eqregsel 命令还显示了程序运行的计算时间以及进度条。如果需要,可以通过设置较少的 bootstrap 和子抽样重复次数,或者较少的网格点数量来节省执行命令的时间。

估计结果表明,两个样本中黑人与白人的工资差距在统计上和经济上都十分显著。同时,相对于 1979 年的样本,1997 年的样本中黑人与白人之间的工资差距更大,即从 1979 年的 11.9% 上升到 1997 年的 15.9%。但这一差异并不显著 (p 值=0.51)。有趣的是,上述规范检验的 p 值 (两样本中的 J 检验的 p 值分别为 0.81 与 0.78) 表明在任何统计水平上都不能拒绝对每一组样本的规范性检验。

另外,D'Haultfœuille 等 (2018) 还利用上述方法估计时薪对黑人虚拟变量的影响,将这样估计得到的工资差距与简单 OLS 回归的结果相比,工资差距从 11.9% 和 15.9% 下降到 8.1% 和 9.7% (标准误差等于 0.035 和 0.041)。当使用上述方法时,所估计的工资差距在幅度上更大,可以认为这与潜在的样本选择问题是一致的。事实上,在男性中,黑人更有可能退出劳动力市场 (Juhn, 2003)。由于辍学者往往有较低的潜在工资,不控制劳动力市场参与的内生性会导致低估黑人与白人之间的工资差距。

5. 参考文献

  • Chernozhukov V, Fernández-Val I. Inference for extremal conditional quantile models, with an application to market and birthweight risks[J]. The Review of Economic Studies, 2011, 78(2): 559-589. -PDF-
  • Chernozhukov V, Fernández-Val I, Kaji T. Extremal quantile regression[J]. Handbook of Quantile Regression, 2017, 1. -PDF-
  • D’Haultfœuille X, Maurel A, Zhang Y. Extremal quantile regressions for selection models and the black–white wage gap[J]. Journal of Econometrics, 2018, 203(1): 129-142. -PDF-
  • D’Haultfœuille X, Maurel A, Qiu X, et al. Estimating selection models without an instrument with Stata[J]. The Stata Journal, 2020, 20(2): 297-308. -PDF-
  • Juhn C. Labor market dropouts and trends in the wages of black and white men[J]. ILR Review, 2003, 56(4): 643-662. -PDF-

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 工具变量, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh