Stata:样本选择偏误与两部模型-twopm-L121

发布时间:2021-09-07 阅读 161

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:张少鹏 (哈尔滨工业大学)
邮箱13251610878@163.com

编者按:本文部分内容摘译自下文,特此致谢!
Source:Madden D. Sample selection versus two-part models revisited: The case of female smoking and drinking[J]. Journal of Health Economics, 2008, 27(2): 300-307. -PDF-


目录


1. 文献介绍

1.1 引言

关于 Heckman 样本选择模型与两部模型的优点比较,在健康计量经济学中始终存在争论。这场争论最初是在医疗保健支出的背景下产生的。健康经济学的一个重要领域是对吸烟和饮酒的分析,在这个领域,有关这些方法相对优点的讨论还比较少。这个问题对这些行为的重要性源于这样一个事实,即在任何给定的时间点,在一群人中,大部分人将没有烟草或酒精消费。正如作者在下面更详细讨论的那样,这可能是由于许多原因而出现,因此在进行模型选择时必须非常小心。本文使用了来自爱尔兰女性样本的数据,在吸烟和饮酒的背景下展示了解决这一问题的证据。本文的重点是模型选择和应使用的标准,以及在这些标准基础上对两个模型的比较。

1.2 烟酒消费的经济计量模型设定

在本节中,作者简要讨论了烟草和酒精等商品的建模策略。例如,在对烟草消费建模时,必须考虑的一个关键因素是,在具有高度分类信息的微观数据集中可能出现许多零观测值。出现这种零观测值可能有三个主要原因:

  • 首先,在记录周期较短的调查数据中,购买频率低可能会产生很大比例的零消费观测值 (例如,服装等半耐用品);
  • 其次,烟草可能对一些人没有好处,因为他们不吸烟;
  • 最后,即使一个人可能是潜在的吸烟者,他们可能无法在目前收入的情况下负担得起商品价格。因此,考虑到当前的商品价格和收入,零消费的角点解是这些个体的效用最大化决策。

对零观测值的特殊解释可能对所采用的估计方法有重要影响。本文以烟草消费建模的双栏模型为出发点。这种方法假设个体必须通过两个门槛才能被认为有正消费水平。这两个门槛都是个人选择的结果:参与决策和消费决策。所采用的双栏模型的精确形式将取决于两个领域的关键假设:一个是参与和消费等式中误差项之间的独立程度;另一个是支配地位问题,即参与决策是否支配消费决策。

双栏模型有三个组成部分:被观测的消费、参与方程和消费方程。假设被观测的消费由 y=dy+ 得出,并且我们的参与方程如下,w=αZ+v,如果 w>0 则 d=1,否则 d=0;消费方程如下,y+=max[0y]y=βX+u。如果我们考虑到扰动项之间的相关性,那么如果样本被分成零消费者 (表示为 0) 和正消费者 (表示为 +) 两种,则双栏模型完整的可能性为:

其中,Z 和 X 是影响参与度的回归量,α 和 β 则是估计系数的向量,μ 和 v 是服从二元正态随机分布的附加扰动项。如果我们假设扰动项 u 和 v 是独立的,那么模型就可以简化为具有似然性的 Cragg 模型:

独立的另一种简化假设是所谓的第一门槛支配,即参与决策支配消费决策。这意味着零消费不是由标准角点解产生的,而是代表一种独立的离散选择。因此,一旦通过了第一个门槛,标准 Tobit 形式的审查 (零或负消费,可能是 “通过” 了参与门槛的人的效用最大化选择) 就不相关了。第一门槛支配意味着 p(y>0|d=1)=1 和 g(y|y>0d=1)=g(y|d=1)。在这种情况下,扰动项之间的相关的可能性为:

该式对应于 Heckman 样本选择模型 (以下称为选择模型)。如果同时假定独立性,那么双栏模型可以简化为用于参与方程的 Probit 模型和用于基于似然函数估计正消费人群的消费方程的普通最小二乘法 OLS:

因此,就建模策略而言,两个关键因素是 (a) 误差项的独立性和 (b) 对零观测值的解释,它决定了支配地位是否被假定。出于作者在下面解释的原因,他们认为支配地位适用于其数据,因此面临的关键抉择是选择模型 (L2) 和两部模型 (L3) 之间的选择。那么如何在这两个模型中进行选择呢?

1.3 两种模型的理论抉择

首先直面试图建模什么的理论问题,在样本选择和两部模型之间的抉择归根结底是希望模拟潜在结果还是实际结果。

样本选择模型最早是由 Heckman (1979) 提出的,其主要用于工资方程的估计。在这些应用中,学者们通常对诸如学校教育等变量对工资的影响感兴趣。然而,早期研究并没有观察到那些不工作的人的工资,考虑到他们的学历,他们很可能只能获得相对较低的工资。因此,学者对个体在工作时可能获得的潜在工资进行建模。之后,可以估计一个协变量的影响,如学校教育对实际和潜在工人的影响。

在处理吸烟问题时,潜在的烟草支出的意义是什么?对于那些被观测到烟草消费为零的人来说,在某些情况下是否有潜在的正预期消费?正如作者解释的那样,其数据中关于烟草和酒精消费问题的性质表明支配地位是适用的,并且不太可能有潜在的正预期消费。因此,根据作者提出的三个标准中的第一个,他们试图模拟的是实际吸烟,而不是潜在吸烟。因此,作者感兴趣的是协变量对实际吸烟的影响,而不是对潜在吸烟的影响,在这种情况下,两部模型似乎更合适。

就样本选择和两部模型之间的抉择而言,第二个问题涉及到排他性约束问题。在大多数情况下,向量 Z 和 X 有许多共同的变量。在使用选择模型时,为了从水平决策 (吸烟多少) 中单独识别关于参与 (吸烟或不吸烟) 的决策,有必要有输入 Z 但不输入 X 的变量。如果找不到这样的变量 (称为排他性约束变量),则单独的识别取决于水平方程中出现的额外项 (称为逆米尔斯比率,IMR) 的非线性。这里的问题是,在很大的自变量范围内,IMR 经常是近似线性函数。因此,由于共线性的存在,从样本选择模型中的水平方程展开的估计可能是不稳健的。

Leung 和 Yu (1996) 研究了这个问题,他们认为 (在没有合理的排他性约束变量的情况下) XIMR 这两个回归量之间的共线性是在选择模型和两部模型之间进行抉择的决定性标准。他们还指出,这种共线性问题的存在限制了样本选择性的 t 检验对 IMR 系数的作用 (这种检验有时被用作模型选择的标准)。这突出了使用程序分析共线性程度的必要性。这里需要说明的是,VIF 值超过 30 就值得关注。

最后,可能会有统计标准来帮助区分这两种模型。 Leung 和 Yu (1996) 的蒙特卡罗研究使用了其关注参数的均方误差标准 (M.S.E.)。M.S.E. 是方差与偏差的和的平方,但关键是,计算偏差需要了解真实参数。因此,该标准不能用于真实参数值未知的经验研究中。在这种情况下,Dow 和 Norton (2003) 在其研究中推荐使用经验型 M.S.E. 检验。这包括在假设一个模型 (如选择模型) 是一致和正确的情况下,计算两个估计量的经验 M.S.E.。然后,选择模型的 M.S.E. 将只涉及方差分量,而两部模型的 M.S.E. 将涉及其方差及其相对于选择模型的 “偏差” (假设选择模型具有零 “偏差”)。作者还在假设两部模型是 “真实” 模型的情况下计算了经验 M.S.E.

1.4 实证结果

本文使用的数据集被称为 Saffron Survey,由都柏林大学健康经济学中心于 1998 年开展。该调查的目的是调查妇女对其一生健康需求的知识、理解和认识。出于本文的研究目的,关于吸烟和饮酒的相关问题如下:你目前吸烟吗?对于回答 “是” 的人,还有一个后续问题:你每天大约抽多少支烟?对于饮酒,相关的问题是:一般来说,你多久喝一次酒?受访者会回复从 “每天” 到 “从不” 的七种不同的答案。那些回答他们喝酒的人会被问到他们通常喝多少。样本总共包括 1260 名女性。然而,在这 1260 个样本信息中,有些妇女的信息缺失了,留给我们的样本是 1257 名吸烟妇女和 1259 名饮酒妇女。这些数据提供了关于个人特征的详细信息,包括健康、生活方式选择和人口统计等。

表 1 总结了 1260 名妇女以及吸烟者和饮酒者的相关变量。表 2 和表 3 提供了烟草和酒精的选择模型和两部模型的估计值。由于我们的主要重点是两个模型之间的比较,而不是实际的估计系数,我们将把我们对结果的讨论限制在这种比较上。首先处理烟草的选择方程,两个模型的估计系数非常相似,系数的符号符合常识。然而,两部模型中的显著性水平似乎更高。也许这两种模型唯一的实质性区别在于婚姻状况的作用 (已婚和丧偶)。对于选择模型来说,它没有影响;而对于两部模型来说,它产生了显著负向影响。在水平方程中,两个模型的结果实际上是相同的。

图 1:变量描述性统计结果
图 1:变量描述性统计结果
图 2:烟草消费者的模型结果比较
图 2:烟草消费者的模型结果比较
图 3:酒精消费者的模型结果比较
图 3:酒精消费者的模型结果比较

关于酒精的估计结果,这两种模型再次达成广泛共识。在选择方程中,两部模型中教育的影响更大,而选择模型中医学朋友或亲戚的存在的影响更大。同样,水平方程的结果非常相似。因此,总的来说,表 2 和表 3 中估计系数的值和大小通常是相当合理的,也许更有趣的是,选择模型和两部模型之间的差异相对较小。

关于共线性的问题。作者首先检查的是选择模型的 IMR 的 VIF 值。对其他协变量的 IMR 显示,烟草和酒精的 R2 分别为 0.9975 和 0.9925。这表明 IMR 的 VIF 值为 400 和 133 ,大大超过了建议阈值,并清楚地表明 IMR 和其他回归量之间存在共线性。因此,共线性分析清楚地表明选择模型存在问题,并建议谨慎对待这种模型的估计。

图 4:烟草消费者的 M.S.E. 结果比较
图 4:烟草消费者的 M.S.E. 结果比较
图 5:酒精消费者的 M.S.E. 结果比较
图 5:酒精消费者的 M.S.E. 结果比较

关于经验 M.S.E. 问题。表 4 和表 5 分别显示了吸烟和饮酒的经验 M.S.E. 检验结果。我们在两个不同的零假设下展示了结果:首先,在真实模型是选择模型的基础上;其次,真实模型是两部模型。

首先针对烟草而言,总体证据支持两部模型。当选择模型被假定为真实模型时,对于一半协变量来说,两部模型的 M.S.E. 仍然较低。当两部模型被假定为真实模型时,那么对于大多数协变量来说,两部模型的 M.S.E. 较低。然而,就酒精而言,经验 M.S.E. 表明选择模型更受青睐,因为它的 M.S.E. 对大多数协变量来说都更低,即使假设两部模型是真实模型。

总的来说,这个检验的结果与那些共线性检验结果在一定程度上一致,至少是根据模型排名。就烟草而言,IMR 的 VIF 值极高,这引起了人们对选择模型可靠性的质疑,并且这与支持两部模型的 M.S.E. 的结果是一致的。就酒精而言,VIF 的结果尽管仍然令人担忧,但是也表明共线性不像烟草那样是一个大问题。然而,M.S.E. 的结果倾向于选择模式。

2. 数据准备

本文拟基于传统的工资收入决定方程来对比考察选择模型和两部模型的结果,在此基础上,使用北京大学中国社会科学调查中心实施的中国家庭追踪调查 (CFPS) 数据开展实证研究。需要说明的是,CFPS 主要是跟踪收集个体、家庭、社区三个层次的数据,本文使用的是 2016 年个体成年人数据集。关于 CFPS 的完整数据,读者可到「中国家庭追踪调查」网站申请,本文只提供处理后的数据供读者练习使用。

在正式的回归分析前,为了更好地满足本文的研究目的,需要对上述数据集进行数据清洗工作。主要步骤如下:

  • 首先,筛选出需要用到的变量,如被访者的工作状态、工资收入以及相关个体基本信息;
  • 其次,删除 “不适用”、“不清楚”、“无法回答” 等异常值;
  • 最后,将不符合本文研究目的的样本予以删除,如学生、退休人员等。

同时,对相关变量进行整合处理,如将学历划分为 “文盲或半文盲”、“小学”、“初中”、“高中或中专或职高” 以及 “大专或本科” 的五级离散变量,将婚姻状况划分为 “未婚或离婚或丧偶” 与 “已婚有配偶” 的 0-1 虚拟变量等等;考虑到工资收入的取值范围相比其他变量较大,因此将工资收入进行对数化处理来减小异方差。

3. Stata 实操

接下来,我们通过 Stata 实操来讲解数据分析过程,并将选择模型和两部模型的回归结果进行比较。

. *数据导入
. cnssc install lxhuse, lianxh replace
. lxhuse cfps2016adultzsp.dta, clear

3.1 选择模型结果展示

本文使用 Heckman 两步法中的 Step by Step 方法对选择模型进行估计,结果如下:

. probit work age gender education  marriage health party

Iteration 0:   log likelihood = -1268.0024  
Iteration 1:   log likelihood = -1228.1051  
Iteration 2:   log likelihood = -1227.3598  
Iteration 3:   log likelihood = -1227.3593  
Iteration 4:   log likelihood = -1227.3593  
Probit regression                                Number of obs =  7,108
                                                 LR chi2(6)    =  81.29
                                                 Prob > chi2   = 0.0000
Log likelihood = -1227.3593                      Pseudo R2     = 0.0321
-----------------------------------------------------------------------
      work | Coefficient  Std. err.    z    P>|z|  [95% conf. interval]
-----------+-----------------------------------------------------------
       age |      0.011      0.003   3.62   0.000     0.005       0.016
    gender |      0.352      0.055   6.36   0.000     0.244       0.461
 education |      0.059      0.026   2.28   0.022     0.008       0.110
  marriage |      0.076      0.068   1.11   0.265    -0.057       0.209
    health |     -0.085      0.025  -3.44   0.001    -0.133      -0.037
     party |      0.025      0.113   0.23   0.821    -0.196       0.247
     _cons |      1.236      0.122  10.17   0.000     0.997       1.474
-----------------------------------------------------------------------

. eststo heckman_probit
. predict y_hat, xb
. gen pdf = normalden(y_hat)
. gen cdf = normal(y_hat)
. gen imr = pdf/cdf
. reg lwage age gender education marriage health party imr if work == 1

    Source |       SS           df       MS      Number of obs   =     6,800
-----------+----------------------------------   F(7, 6792)      =    111.55
     Model |  15651.3345         7  2235.90492   Prob > F        =    0.0000
  Residual |  136141.712     6,792  20.0444217   R-squared       =    0.1031
-----------+----------------------------------   Adj R-squared   =    0.1022
     Total |  151793.047     6,799  22.3257901   Root MSE        =    4.4771
----------------------------------------------------------------------------
     lwage | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-----------+----------------------------------------------------------------
       age |     -0.036      0.014    -2.65   0.008       -0.063      -0.009
    gender |      1.461      0.455     3.21   0.001        0.569       2.354
 education |      1.029      0.089    11.56   0.000        0.855       1.204
  marriage |     -0.458      0.172    -2.66   0.008       -0.794      -0.121
    health |     -0.287      0.114    -2.53   0.011       -0.510      -0.065
     party |      0.416      0.212     1.96   0.050       -0.000       0.832
       imr |     11.374      7.400     1.54   0.124       -3.132      25.880
     _cons |      5.241      1.358     3.86   0.000        2.578       7.904
----------------------------------------------------------------------------

. eststo heckman_ols
. vif

    Variable |       VIF       1/VIF  
-------------+----------------------
         imr |     31.49    0.031761
      gender |     17.28    0.057883
         age |      7.96    0.125590
      health |      5.71    0.175078
   education |      3.36    0.297896
    marriage |      1.97    0.506767
       party |      1.07    0.936345
-------------+----------------------
    Mean VIF |      9.83

从上述结果中可以看到,在选择方程中,被访者的年龄 (age)、性别 (gender) 以及学历 (education) 这三个协变量对其是否参加工作均存在显著正向影响,健康状况 (health) 则表现为显著负向影响,而婚姻状况 (marriage) 和是否是党员 (party) 的影响不显著;在结果方程中,尽管所有协变量对工资收入的回归结果均通过了显著性检验,但是逆米尔斯比率 (IMR) 的回归系数并不显著。此外,通过多重共线性检验发现,IMR 与其他协变量存在共线性。

3.2 两部模型结果展示

本文使用 twopm 命令对两部模型进行估计。需要说明的是,在 twopm 命令的选择项中,第一部可以使用 probit 模型也可以使用 logit 模型,第二部可以使用 ols 方法也可以使用 glm 方法。为了尽量减小与选择模型的比较误差,本文决定与之保持一致,即在第一部中使用 probit 方法,在第二部中使用 ols 方法,结果如下:

. cnssc install twopm, replace // 命令安装
. twopm lwage age gender education marriage health party, firstpart(probit) secondpart(regress) 

Fitting probit regression for first part:
Iteration 0:   log likelihood = -4374.2318  
Iteration 1:   log likelihood = -4057.2197  
Iteration 2:   log likelihood = -4055.2599  
Iteration 3:   log likelihood = -4055.2599  
Fitting OLS regression for second part:
Two-part model
------------------------------------------------------------------------------
Log pseudolikelihood = -10940.447                 Number of obs   =       7108
Part 1: probit
------------------------------------------------------------------------------
                                                  Number of obs   =       7108
                                                  LR chi2(6)      =     637.94
                                                  Prob > chi2     =     0.0000
Log likelihood = -4055.2599                       Pseudo R2       =     0.0729
Part 2: regress
------------------------------------------------------------------------------
                                                  Number of obs   =       4937
                                                  F(   6,   4930) =      93.95
                                                  Prob > F        =     0.0000
                                                  R-squared       =     0.1026
                                                  Adj R-squared   =     0.1015
Log likelihood = -6885.1866                       Root MSE        =     0.9767
------------------------------------------------------------------------------
       lwage | Coefficient  Std. err.      z    P>|z|     [95% conf. interval]
-------------+----------------------------------------------------------------
probit       |
         age |     -0.015      0.002    -9.18   0.000       -0.019      -0.012
      gender |      0.126      0.033     3.81   0.000        0.061       0.191
   education |      0.239      0.017    14.45   0.000        0.207       0.272
    marriage |     -0.275      0.044    -6.31   0.000       -0.361      -0.190
      health |     -0.029      0.014    -2.00   0.046       -0.057      -0.001
       party |      0.172      0.068     2.53   0.012        0.038       0.305
       _cons |      0.804      0.076    10.58   0.000        0.655       0.953
-------------+----------------------------------------------------------------
regress      |
         age |     -0.001      0.002    -0.41   0.683       -0.004       0.002
      gender |      0.412      0.029    14.38   0.000        0.356       0.469
   education |      0.230      0.012    18.43   0.000        0.206       0.255
    marriage |      0.140      0.035     3.99   0.000        0.071       0.209
      health |     -0.025      0.013    -1.94   0.052       -0.051       0.000
       party |     -0.031      0.051    -0.61   0.540       -0.132       0.069
       _cons |      9.249      0.064   143.97   0.000        9.123       9.375
------------------------------------------------------------------------------

. eststo twopm

基于两部模型的回归结果可以发现,在第一部方程中,所有协变量的回归系数显著性都通过了统计检验,区别在于年龄 (age)、婚姻状况 (marriage) 以及健康状况 (health) 与是否参加工作的关系呈现为显著负相关,而其他协变量则表现出显著正相关关系;在第二部方程中,性别 (gender)、学历 (education) 与婚姻状况 (marriage) 对工资收入具有显著正向影响,但是健康状况 (health) 存在显著负向影响。

3.3 两种模型的结果比较

为了更清晰地比较选择模型和两部模型的回归结果,本文还将两种模型的结果进行并列展示来观察其异同。

. esttab heckman_probit heckman_ols twopm,  ///
    b(%6.3f) t(%6.2f) star(* 0.1 ** 0.05 *** 0.01)

-------------------------------------------------------
                 (1)             (2)             (3)   
                work           lwage           lwage   
-------------------------------------------------------
main                                                   
age            0.011***       -0.036***       -0.015***
              (3.62)         (-2.65)         (-9.18)   
gender         0.352***        1.461***        0.126***
              (6.36)          (3.21)          (3.81)   
education      0.059**         1.029***        0.239***
              (2.28)         (11.56)         (14.45)   
marriage       0.076          -0.458***       -0.275***
              (1.11)         (-2.66)         (-6.31)   
health        -0.085***       -0.287**        -0.029** 
             (-3.44)         (-2.53)         (-2.00)   
party          0.025           0.416*          0.172** 
              (0.23)          (1.96)          (2.53)   
imr                           11.374                   
                              (1.54)                   
_cons          1.236***        5.241***        0.804***
             (10.17)          (3.86)         (10.58)   
-------------------------------------------------------
regress                                                
age                                           -0.001   
                                             (-0.41)   
gender                                         0.412***
                                             (14.38)   
education                                      0.230***
                                             (18.43)   
marriage                                       0.140***
                                              (3.99)   
health                                        -0.025*  
                                             (-1.94)   
party                                         -0.031   
                                             (-0.61)   
_cons                                          9.249***
                                            (143.97)   
-------------------------------------------------------
N                    7108            6800            7108   
------------------------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01

观察上面两种模型的回归结果,(1) 和 (2) 分别是选择模型中选择方程和结果方程的回归结果,(3) 的上下两部分分别是两部模型的第一部和第二部方程的回归结果。由于选择模型中 IMR 的回归系数不显著且存在共线性,因此相比较而言,两部模型优于选择模型。

4. 参考文献

  • Heckman J J. Sample selection bias as a specification error[J]. Econometrica: Journal of the econometric society, 1979: 153-161. -PDF-
  • Leung S F, Yu S. On the choice between sample selection and two-part models[J]. Journal of econometrics, 1996, 72(1-2): 197-229. -PDF-
  • Dow W H, Norton E C. Choosing between and interpreting the Heckit and two-part models for corner solutions[J]. Health Services and outcomes research methodology, 2003, 4(1): 5-18. -Link-
  • Belotti F, Deb P, Manning W G, et al. twopm: Two-part models[J]. The Stata Journal, 2015, 15(1): 3-20. -PDF-

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh heckman psm 选择模型, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh