Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:章青慈 (中央财经大学)
邮箱:Quincy_zqc@163.com
编者按:本文主要参考自下文,特此致谢!
Source:Carlson A, Joshi R. Sample Selection in Linear Panel Data Models with Heterogeneous Coefficients[R]. 2022. -Link- -PDF-
目录
传统的 Heckman 两步法可以解决样本选择造成的内生性问题,但仍忽视了由样本个体异质性造成的内生性问题。为了克服这一缺陷,Carlson 和 Joshi (2022) 提出了广义 Heckman 两步法 (又称作 gtsheckman)。它类似于两步一致 Heckman 估计,但允许第一步选择方程中存在异方差,以及更一般化的控制函数形式。此外,它提供了异方差稳健性检验和聚类稳健性检验。
为了推广该方法,Carlson 和 Joshi (2022) 编写了广义 Heckman 两步法的 Stata 命令 gtsheckman
。本文的主要目的是介绍 gtsheckman
命令的使用。
给定面板数据,选择方程可以灵活地设计异质性截距和异质性系数:
其中
所以选择方程可以进一步写为:
对于被观测到的样本方程:
样本被观测到的概率:
按照传统的 Heckman 两步法进行控制函数推导:
将逆米尔斯比率 (IMR) 定义为:
将控制函数与 IMR 代入,估计方程变为以下形式:
根据这个估计方程式,作者提出了一个灵活的参数两步估计过程:
命令安装:
ssc install gtsheckman, replace
命令语法:
gtsheckman depvar [indepvars] [if] [in] , select (depvar_s = varlist_s) [options]
其中,
select()
:表示写入选择方程,括号内是选择方程的具体变量;depvar
:指定回归的被解释变量;indepvars
:指定回归的控制变量和外生变量;depvar_s
:表示 “回归的被解释变量是否被观测到” 的二元虚拟变量 (0 表示未被观测的样本,1 表示观测到的样本) ;varlist_s
:选择方程中的控制变量和外生变量集。主要选项如下:
het(varlist)
:指定第一阶段异方差概率估计的方差函数中的自变量;clp(varlist)
:指定第二阶段控制函数中与 IMR 相互作用的自变量;vce(vcetype)
:指定结果报告标准误的类型;lambda
:根据选择模型第一阶段估计 IMR 值,生成名为 lambda 的新变量。
进行 Heckman 的两步一致估计:
. use http://fmwww.bc.edu/ec-p/data/wooldridge/mroz, clear
. gtsheckman lwage educ exper expersq, ///
> select(inlf = educ exper expersq age nwifeinc kidslt6 kidsge6)
Generalized Two Step Heckman Estimator Number of obs = 753
Selected = 428
Nonselected = 325
First-stage probit estimates
------------------------------------------------------------------------------
inlf | Coefficient Std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
inlf |
educ | 0.131 0.025 5.18 0.000 0.081 0.180
exper | 0.123 0.019 6.59 0.000 0.087 0.160
expersq | -0.002 0.001 -3.15 0.002 -0.003 -0.001
age | -0.053 0.008 -6.23 0.000 -0.069 -0.036
nwifeinc | -0.012 0.005 -2.48 0.013 -0.022 -0.003
kidslt6 | -0.868 0.119 -7.33 0.000 -1.101 -0.636
kidsge6 | 0.036 0.043 0.83 0.408 -0.049 0.121
_cons | 0.270 0.509 0.53 0.595 -0.727 1.267
------------------------------------------------------------------------------
Second-stage augmented regression estimates
------------------------------------------------------------------------------
| Coefficient Std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
lwage |
educ | 0.109 0.016 7.03 0.000 0.079 0.139
exper | 0.044 0.016 2.70 0.007 0.012 0.076
expersq | -0.001 0.000 -1.96 0.050 -0.002 0.000
lambda | 0.032 0.134 0.24 0.809 -0.230 0.294
_cons | -0.578 0.305 -1.90 0.058 -1.176 0.020
------------------------------------------------------------------------------
进行样本选择方程中具有异方差性和稳健标准误的 Heckman 两步一致估计:
. gtsheckman lwage educ exper expersq, ///
> select(inlf = educ exper expersq age nwifeinc kidslt6 kidsge6) ///
> het(educ kidslt6 kidsge6) vce(robust)
Generalized Two Step Heckman Estimator Number of obs = 753
Selected = 428
Nonselected = 325
First-stage heteroskedastic probit estimates
------------------------------------------------------------------------------
inlf | Coefficient Std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
inlf |
educ | 0.089 0.040 2.25 0.025 0.011 0.167
exper | 0.089 0.036 2.50 0.012 0.019 0.159
expersq | -0.002 0.001 -2.20 0.028 -0.003 -0.000
age | -0.035 0.015 -2.40 0.016 -0.064 -0.006
nwifeinc | -0.009 0.005 -1.83 0.068 -0.018 0.001
kidslt6 | -0.640 0.277 -2.31 0.021 -1.184 -0.097
kidsge6 | 0.035 0.041 0.87 0.386 -0.045 0.115
_cons | 0.120 0.363 0.33 0.740 -0.590 0.831
-------------+----------------------------------------------------------------
lnsigma |
educ | -0.042 0.031 -1.36 0.173 -0.102 0.018
kidslt6 | 0.088 0.193 0.45 0.650 -0.291 0.467
kidsge6 | 0.096 0.067 1.43 0.152 -0.035 0.226
------------------------------------------------------------------------------
Second-stage augmented regression estimates
------------------------------------------------------------------------------
| Robust
| Coefficient std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
lwage |
educ | 0.106 0.014 7.61 0.000 0.079 0.134
exper | 0.039 0.016 2.50 0.012 0.008 0.070
expersq | -0.001 0.000 -1.81 0.071 -0.002 0.000
lambda | -0.024 0.091 -0.26 0.795 -0.202 0.154
_cons | -0.471 0.260 -1.81 0.070 -0.981 0.039
------------------------------------------------------------------------------
Warning: If introducing heteroskedasticity should specify clp(varlist)
为了更好地理解这一方法,Carlson 和 Joshi (2022) 使用国际象棋评级数据,分析选手在约束时间内进行风险决策行为的个体差异。世界国际象棋联合会报告了三类国际象棋比赛 (Standard、Rapid、Blitz) 的选手排名,三类比赛的用时存在差异。选手对比赛类型的选择可能受到性别、技巧及某些不可观测因素的影响,故可以对这一问题建立选择模型 (以 Rapid 为例)。
其中,Standard 表示选手在 Standard 比赛中的排名,衡量选手在不受时间限制下的技术。在这两个方程中,female 和 standard 具有异质性截距和系数,不喜欢在约束时间内决策的选手对应系数较小。
在第一阶段估计中,分别采用 Probit、CRE Probit 和 CRC Het Probit 进行估计,结果比较稳健。
第二阶段的估计结果如下表所示,第 (5) 列为 gtsheckman 的估计结果,可见该结果与其他方法存在较大差异。在性别方面,female 的系数为 -0.0875,大小几乎是前人研究 (Wooldridge,1995) 的 4 倍。此外,模型中的交互项在统计学意义上也是显著的,证明 gtsheckman 估计的模型形式是合理的。研究结果表明女性会更谨慎地选择具有时间约束的比赛,技术更好的选手也具有这种特点。
POLS 忽略了样本选择和个体差异造成的内生性,Heckman 忽略了个体差异造成的内生性,只有 gtsheckman 法能充分地解决由样本选择和个体差异造成的复杂内生性。
Note:产生如下推文列表的 Stata 命令为:
lianxh psm heckman, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh