Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:张少鹏 (哈尔滨工业大学)
邮箱:13251610878@163.com
编者按:本文部分内容摘译自下文,特此致谢!
Source:Madden D. Sample selection versus two-part models revisited: The case of female smoking and drinking[J]. Journal of Health Economics, 2008, 27(2): 300-307. -PDF-
目录
关于 Heckman 样本选择模型与两部模型的优点比较,在健康计量经济学中始终存在争论。这场争论最初是在医疗保健支出的背景下产生的。健康经济学的一个重要领域是对吸烟和饮酒的分析,在这个领域,有关这些方法相对优点的讨论还比较少。这个问题对这些行为的重要性源于这样一个事实,即在任何给定的时间点,在一群人中,大部分人将没有烟草或酒精消费。正如作者在下面更详细讨论的那样,这可能是由于许多原因而出现,因此在进行模型选择时必须非常小心。本文使用了来自爱尔兰女性样本的数据,在吸烟和饮酒的背景下展示了解决这一问题的证据。本文的重点是模型选择和应使用的标准,以及在这些标准基础上对两个模型的比较。
在本节中,作者简要讨论了烟草和酒精等商品的建模策略。例如,在对烟草消费建模时,必须考虑的一个关键因素是,在具有高度分类信息的微观数据集中可能出现许多零观测值。出现这种零观测值可能有三个主要原因:
对零观测值的特殊解释可能对所采用的估计方法有重要影响。本文以烟草消费建模的双栏模型为出发点。这种方法假设个体必须通过两个门槛才能被认为有正消费水平。这两个门槛都是个人选择的结果:参与决策和消费决策。所采用的双栏模型的精确形式将取决于两个领域的关键假设:一个是参与和消费等式中误差项之间的独立程度;另一个是支配地位问题,即参与决策是否支配消费决策。
双栏模型有三个组成部分:被观测的消费、参与方程和消费方程。假设被观测的消费由
其中,
独立的另一种简化假设是所谓的第一门槛支配,即参与决策支配消费决策。这意味着零消费不是由标准角点解产生的,而是代表一种独立的离散选择。因此,一旦通过了第一个门槛,标准 Tobit 形式的审查 (零或负消费,可能是 “通过” 了参与门槛的人的效用最大化选择) 就不相关了。第一门槛支配意味着
该式对应于 Heckman 样本选择模型 (以下称为选择模型)。如果同时假定独立性,那么双栏模型可以简化为用于参与方程的 Probit 模型和用于基于似然函数估计正消费人群的消费方程的普通最小二乘法 OLS:
因此,就建模策略而言,两个关键因素是 (a) 误差项的独立性和 (b) 对零观测值的解释,它决定了支配地位是否被假定。出于作者在下面解释的原因,他们认为支配地位适用于其数据,因此面临的关键抉择是选择模型 (L2) 和两部模型 (L3) 之间的选择。那么如何在这两个模型中进行选择呢?
首先直面试图建模什么的理论问题,在样本选择和两部模型之间的抉择归根结底是希望模拟潜在结果还是实际结果。
样本选择模型最早是由 Heckman (1979) 提出的,其主要用于工资方程的估计。在这些应用中,学者们通常对诸如学校教育等变量对工资的影响感兴趣。然而,早期研究并没有观察到那些不工作的人的工资,考虑到他们的学历,他们很可能只能获得相对较低的工资。因此,学者对个体在工作时可能获得的潜在工资进行建模。之后,可以估计一个协变量的影响,如学校教育对实际和潜在工人的影响。
在处理吸烟问题时,潜在的烟草支出的意义是什么?对于那些被观测到烟草消费为零的人来说,在某些情况下是否有潜在的正预期消费?正如作者解释的那样,其数据中关于烟草和酒精消费问题的性质表明支配地位是适用的,并且不太可能有潜在的正预期消费。因此,根据作者提出的三个标准中的第一个,他们试图模拟的是实际吸烟,而不是潜在吸烟。因此,作者感兴趣的是协变量对实际吸烟的影响,而不是对潜在吸烟的影响,在这种情况下,两部模型似乎更合适。
就样本选择和两部模型之间的抉择而言,第二个问题涉及到排他性约束问题。在大多数情况下,向量
Leung 和 Yu (1996) 研究了这个问题,他们认为 (在没有合理的排他性约束变量的情况下)
最后,可能会有统计标准来帮助区分这两种模型。 Leung 和 Yu (1996) 的蒙特卡罗研究使用了其关注参数的均方误差标准 (M.S.E.)。M.S.E. 是方差与偏差的和的平方,但关键是,计算偏差需要了解真实参数。因此,该标准不能用于真实参数值未知的经验研究中。在这种情况下,Dow 和 Norton (2003) 在其研究中推荐使用经验型 M.S.E. 检验。这包括在假设一个模型 (如选择模型) 是一致和正确的情况下,计算两个估计量的经验 M.S.E.。然后,选择模型的 M.S.E. 将只涉及方差分量,而两部模型的 M.S.E. 将涉及其方差及其相对于选择模型的 “偏差” (假设选择模型具有零 “偏差”)。作者还在假设两部模型是 “真实” 模型的情况下计算了经验 M.S.E.。
本文使用的数据集被称为 Saffron Survey,由都柏林大学健康经济学中心于 1998 年开展。该调查的目的是调查妇女对其一生健康需求的知识、理解和认识。出于本文的研究目的,关于吸烟和饮酒的相关问题如下:你目前吸烟吗?对于回答 “是” 的人,还有一个后续问题:你每天大约抽多少支烟?对于饮酒,相关的问题是:一般来说,你多久喝一次酒?受访者会回复从 “每天” 到 “从不” 的七种不同的答案。那些回答他们喝酒的人会被问到他们通常喝多少。样本总共包括 1260 名女性。然而,在这 1260 个样本信息中,有些妇女的信息缺失了,留给我们的样本是 1257 名吸烟妇女和 1259 名饮酒妇女。这些数据提供了关于个人特征的详细信息,包括健康、生活方式选择和人口统计等。
表 1 总结了 1260 名妇女以及吸烟者和饮酒者的相关变量。表 2 和表 3 提供了烟草和酒精的选择模型和两部模型的估计值。由于我们的主要重点是两个模型之间的比较,而不是实际的估计系数,我们将把我们对结果的讨论限制在这种比较上。首先处理烟草的选择方程,两个模型的估计系数非常相似,系数的符号符合常识。然而,两部模型中的显著性水平似乎更高。也许这两种模型唯一的实质性区别在于婚姻状况的作用 (已婚和丧偶)。对于选择模型来说,它没有影响;而对于两部模型来说,它产生了显著负向影响。在水平方程中,两个模型的结果实际上是相同的。
关于酒精的估计结果,这两种模型再次达成广泛共识。在选择方程中,两部模型中教育的影响更大,而选择模型中医学朋友或亲戚的存在的影响更大。同样,水平方程的结果非常相似。因此,总的来说,表 2 和表 3 中估计系数的值和大小通常是相当合理的,也许更有趣的是,选择模型和两部模型之间的差异相对较小。
关于共线性的问题。作者首先检查的是选择模型的 IMR 的 VIF 值。对其他协变量的 IMR 显示,烟草和酒精的
关于经验 M.S.E. 问题。表 4 和表 5 分别显示了吸烟和饮酒的经验 M.S.E. 检验结果。我们在两个不同的零假设下展示了结果:首先,在真实模型是选择模型的基础上;其次,真实模型是两部模型。
首先针对烟草而言,总体证据支持两部模型。当选择模型被假定为真实模型时,对于一半协变量来说,两部模型的 M.S.E. 仍然较低。当两部模型被假定为真实模型时,那么对于大多数协变量来说,两部模型的 M.S.E. 较低。然而,就酒精而言,经验 M.S.E. 表明选择模型更受青睐,因为它的 M.S.E. 对大多数协变量来说都更低,即使假设两部模型是真实模型。
总的来说,这个检验的结果与那些共线性检验结果在一定程度上一致,至少是根据模型排名。就烟草而言,IMR 的 VIF 值极高,这引起了人们对选择模型可靠性的质疑,并且这与支持两部模型的 M.S.E. 的结果是一致的。就酒精而言,VIF 的结果尽管仍然令人担忧,但是也表明共线性不像烟草那样是一个大问题。然而,M.S.E. 的结果倾向于选择模式。
本文拟基于传统的工资收入决定方程来对比考察选择模型和两部模型的结果,在此基础上,使用北京大学中国社会科学调查中心实施的中国家庭追踪调查 (CFPS) 数据开展实证研究。需要说明的是,CFPS 主要是跟踪收集个体、家庭、社区三个层次的数据,本文使用的是 2016 年个体成年人数据集。关于 CFPS 的完整数据,读者可到「中国家庭追踪调查」网站申请,本文只提供处理后的数据供读者练习使用。
在正式的回归分析前,为了更好地满足本文的研究目的,需要对上述数据集进行数据清洗工作。主要步骤如下:
同时,对相关变量进行整合处理,如将学历划分为 “文盲或半文盲”、“小学”、“初中”、“高中或中专或职高” 以及 “大专或本科” 的五级离散变量,将婚姻状况划分为 “未婚或离婚或丧偶” 与 “已婚有配偶” 的 0-1 虚拟变量等等;考虑到工资收入的取值范围相比其他变量较大,因此将工资收入进行对数化处理来减小异方差。
接下来,我们通过 Stata 实操来讲解数据分析过程,并将选择模型和两部模型的回归结果进行比较。
. *数据导入
. cnssc install lxhuse, lianxh replace
. lxhuse cfps2016adultzsp.dta, clear
本文使用 Heckman 两步法中的 Step by Step 方法对选择模型进行估计,结果如下:
. probit work age gender education marriage health party
Iteration 0: log likelihood = -1268.0024
Iteration 1: log likelihood = -1228.1051
Iteration 2: log likelihood = -1227.3598
Iteration 3: log likelihood = -1227.3593
Iteration 4: log likelihood = -1227.3593
Probit regression Number of obs = 7,108
LR chi2(6) = 81.29
Prob > chi2 = 0.0000
Log likelihood = -1227.3593 Pseudo R2 = 0.0321
-----------------------------------------------------------------------
work | Coefficient Std. err. z P>|z| [95% conf. interval]
-----------+-----------------------------------------------------------
age | 0.011 0.003 3.62 0.000 0.005 0.016
gender | 0.352 0.055 6.36 0.000 0.244 0.461
education | 0.059 0.026 2.28 0.022 0.008 0.110
marriage | 0.076 0.068 1.11 0.265 -0.057 0.209
health | -0.085 0.025 -3.44 0.001 -0.133 -0.037
party | 0.025 0.113 0.23 0.821 -0.196 0.247
_cons | 1.236 0.122 10.17 0.000 0.997 1.474
-----------------------------------------------------------------------
. eststo heckman_probit
. predict y_hat, xb
. gen pdf = normalden(y_hat)
. gen cdf = normal(y_hat)
. gen imr = pdf/cdf
. reg lwage age gender education marriage health party imr if work == 1
Source | SS df MS Number of obs = 6,800
-----------+---------------------------------- F(7, 6792) = 111.55
Model | 15651.3345 7 2235.90492 Prob > F = 0.0000
Residual | 136141.712 6,792 20.0444217 R-squared = 0.1031
-----------+---------------------------------- Adj R-squared = 0.1022
Total | 151793.047 6,799 22.3257901 Root MSE = 4.4771
----------------------------------------------------------------------------
lwage | Coefficient Std. err. t P>|t| [95% conf. interval]
-----------+----------------------------------------------------------------
age | -0.036 0.014 -2.65 0.008 -0.063 -0.009
gender | 1.461 0.455 3.21 0.001 0.569 2.354
education | 1.029 0.089 11.56 0.000 0.855 1.204
marriage | -0.458 0.172 -2.66 0.008 -0.794 -0.121
health | -0.287 0.114 -2.53 0.011 -0.510 -0.065
party | 0.416 0.212 1.96 0.050 -0.000 0.832
imr | 11.374 7.400 1.54 0.124 -3.132 25.880
_cons | 5.241 1.358 3.86 0.000 2.578 7.904
----------------------------------------------------------------------------
. eststo heckman_ols
. vif
Variable | VIF 1/VIF
-------------+----------------------
imr | 31.49 0.031761
gender | 17.28 0.057883
age | 7.96 0.125590
health | 5.71 0.175078
education | 3.36 0.297896
marriage | 1.97 0.506767
party | 1.07 0.936345
-------------+----------------------
Mean VIF | 9.83
从上述结果中可以看到,在选择方程中,被访者的年龄 (age)、性别 (gender) 以及学历 (education) 这三个协变量对其是否参加工作均存在显著正向影响,健康状况 (health) 则表现为显著负向影响,而婚姻状况 (marriage) 和是否是党员 (party) 的影响不显著;在结果方程中,尽管所有协变量对工资收入的回归结果均通过了显著性检验,但是逆米尔斯比率 (IMR) 的回归系数并不显著。此外,通过多重共线性检验发现,IMR 与其他协变量存在共线性。
本文使用 twopm
命令对两部模型进行估计。需要说明的是,在 twopm
命令的选择项中,第一部可以使用 probit
模型也可以使用 logit
模型,第二部可以使用 ols
方法也可以使用 glm
方法。为了尽量减小与选择模型的比较误差,本文决定与之保持一致,即在第一部中使用 probit
方法,在第二部中使用 ols
方法,结果如下:
. cnssc install twopm, replace // 命令安装
. twopm lwage age gender education marriage health party, firstpart(probit) secondpart(regress)
Fitting probit regression for first part:
Iteration 0: log likelihood = -4374.2318
Iteration 1: log likelihood = -4057.2197
Iteration 2: log likelihood = -4055.2599
Iteration 3: log likelihood = -4055.2599
Fitting OLS regression for second part:
Two-part model
---------------------------------------------------------------------------
Log pseudolikelihood = -10940.447 Number of obs = 7108
Part 1: probit
---------------------------------------------------------------------------
Number of obs = 7108
LR chi2(6) = 637.94
Prob > chi2 = 0.0000
Log likelihood = -4055.2599 Pseudo R2 = 0.0729
Part 2: regress
---------------------------------------------------------------------------
Number of obs = 4937
F( 6, 4930) = 93.95
Prob > F = 0.0000
R-squared = 0.1026
Adj R-squared = 0.1015
Log likelihood = -6885.1866 Root MSE = 0.9767
---------------------------------------------------------------------------
lwage | Coefficient Std. err. z P>|z| [95% conf. interval]
-------------+-------------------------------------------------------------
probit |
age | -0.015 0.002 -9.18 0.000 -0.019 -0.012
gender | 0.126 0.033 3.81 0.000 0.061 0.191
education | 0.239 0.017 14.45 0.000 0.207 0.272
marriage | -0.275 0.044 -6.31 0.000 -0.361 -0.190
health | -0.029 0.014 -2.00 0.046 -0.057 -0.001
party | 0.172 0.068 2.53 0.012 0.038 0.305
_cons | 0.804 0.076 10.58 0.000 0.655 0.953
-------------+-------------------------------------------------------------
regress |
age | -0.001 0.002 -0.41 0.683 -0.004 0.002
gender | 0.412 0.029 14.38 0.000 0.356 0.469
education | 0.230 0.012 18.43 0.000 0.206 0.255
marriage | 0.140 0.035 3.99 0.000 0.071 0.209
health | -0.025 0.013 -1.94 0.052 -0.051 0.000
party | -0.031 0.051 -0.61 0.540 -0.132 0.069
_cons | 9.249 0.064 143.97 0.000 9.123 9.375
---------------------------------------------------------------------------
. eststo twopm
基于两部模型的回归结果可以发现,在第一部方程中,所有协变量的回归系数显著性都通过了统计检验,区别在于年龄 (age)、婚姻状况 (marriage) 以及健康状况 (health) 与是否参加工作的关系呈现为显著负相关,而其他协变量则表现出显著正相关关系;在第二部方程中,性别 (gender)、学历 (education) 与婚姻状况 (marriage) 对工资收入具有显著正向影响,但是健康状况 (health) 存在显著负向影响。
为了更清晰地比较选择模型和两部模型的回归结果,本文还将两种模型的结果进行并列展示来观察其异同。
. esttab heckman_probit heckman_ols twopm, ///
b(%6.3f) t(%6.2f) star(* 0.1 ** 0.05 *** 0.01)
-------------------------------------------------------
(1) (2) (3)
work lwage lwage
-------------------------------------------------------
main
age 0.011*** -0.036*** -0.015***
(3.62) (-2.65) (-9.18)
gender 0.352*** 1.461*** 0.126***
(6.36) (3.21) (3.81)
education 0.059** 1.029*** 0.239***
(2.28) (11.56) (14.45)
marriage 0.076 -0.458*** -0.275***
(1.11) (-2.66) (-6.31)
health -0.085*** -0.287** -0.029**
(-3.44) (-2.53) (-2.00)
party 0.025 0.416* 0.172**
(0.23) (1.96) (2.53)
imr 11.374
(1.54)
_cons 1.236*** 5.241*** 0.804***
(10.17) (3.86) (10.58)
-------------------------------------------------------
regress
age -0.001
(-0.41)
gender 0.412***
(14.38)
education 0.230***
(18.43)
marriage 0.140***
(3.99)
health -0.025*
(-1.94)
party -0.031
(-0.61)
_cons 9.249***
(143.97)
-------------------------------------------------------
N 7108 6800 7108
------------------------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01
观察上面两种模型的回归结果,(1) 和 (2) 分别是选择模型中选择方程和结果方程的回归结果,(3) 的上下两部分分别是两部模型的第一部和第二部方程的回归结果。由于选择模型中 IMR 的回归系数不显著且存在共线性,因此相比较而言,两部模型优于选择模型。
Note:产生如下推文列表的 Stata 命令为:
lianxh heckman psm 选择模型, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh