Stata:如何处理固定效应模型中的单期数据-xtfesing

发布时间:2022-04-06 阅读 996

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:关欣 (南开大学)
邮箱gx0222@126.com

编者按:本文主要摘译自下文,特此致谢!
Source:Magazzini L, Bruno R L, Stampini M. Using information from singletons in fixed-effects estimation: xtfesing[J]. The Stata Journal, 2020, 20(4): 965-975. -PDF-


目录


1. 简介

固定效应模型通过剔除不随时间变化的因素,即只考虑组内变换,来缓解遗漏变量偏误问题。但是,当某些个体只有一期数据时,他们的组内变化完全等于零,此时该如何处理呢?

本文将介绍由 Magazzini (2020) 提出的 xtfesing 命令。该命令是在 GMM 框架下构建的,允许在固定效应模型中使用一期数据样本,旨在提高估计效率。该命令的有效性依赖于同质性假设,即面板和单期 OLS 估计的偏差相同。

在使用过程中,我们可以使用 xtdes 命令统计 Ti=1 的样本占比。如果较高 (超过 5%),我们可以考虑使用 xtfesing 命令做稳健性检验。该命令在应用中可提高大约 8%-9% 的估计效率。

2. 理论背景

考虑静态面板数据模型:

其中,i=1,,Nt=1,,Tixit 是 k×1 可观测特征向量,β 是 k×1 待估计参数,αi 是个体固定效应,eit 是误差项。我们允许非平衡面板数据。并且,xit 中的变量可与 αi 相关,但不能与任意 eis 相关,从而满足严格的外生性假设。

我们用下标 i=s 来表示单期,所以 Ts=1。用 Np 表示 Ti>1 时 i 的个数,Ns 为单期个数 (N= Ns+Np)。观察总数为 n=Ns+i=1NpTi。可通过使用 WG 转换获得 FE 估计量。

其中 z¨it=zitz¯i 表示 WG 转换,z¯i= tzit/Ti(z=y,x) 。由于单期的 WG 变换为零,因此仅在估计中使用多期。

FE 估计一致性依赖于严格的外生性假设,并且在非平衡面板情况下,依赖于 the process driving attrition 假设。 当观察值随机缺失时,以下成立:

注意,FE 估计的一致性依赖于 Np。因此:

相反,在解释变量 xit 和 FEαi 之间存在相关性的情况下,OLS 估计量 β^ls 是有偏差的,并且 plimNpβ^ls=β~β~β。将 OLS 偏差表示为 b=β~β,仍然可以写出以下矩条件:

当我们添加 k 阶矩条件和 k 个参数 (b 中每个系数的 OLS 偏差)时,基于上述矩条件的 GMM 估计将产生 FE 估计 β。在同质性假设下,可利用以下附加矩条件:

利用上述矩条件的 GMM 方法可以获得对 β 的一致估计,并提高估计效率。 当观察值随机缺失时,同质性假设成立。在我们的设置中,OLS 偏差可归因于个体异质性与回归变量之间存在相关性:

概率极限等于 cov(xit,αi) 与 xit 的方差之间的比率。因此,同质性假设要求 x 和 α 的协方差与 x 的方差在全样本和单期之间是相同的。为了更好地理解这个假设,考虑一个数据生成过程。其中 yit=xitβ+αi+eit,并引入随机缺失的观测值。因此,对于某些随机选择的个体,在随机选择的时间段内 yit 和 xit 仅被观察一次。

例如,当 cov(xit,αi) 和 var(xit) 随着时间的推移是恒定的。它在更一般的数据生成过程下也得到满足,因为随机选择假设意味着以 x 为条件的 y 对于单期的分布与以 x 为条件的 y 的分布相同。

同质性假设可以通过完全交互 OLS 回归模型检验。为单期观测值定义一个虚拟变量,如果 i=s ,则为 dit=1 ,否则为 0。 完全交互的模型是 yit=xitβ+ditxitδ+wit。同质性检验的原假设 H0:δ=0。作为一个过度识别的模型,Hansen 检验也可以用来检查 xtfesing 假设的有效性。

3. Stata 实操

* 命令安装
net sj 20-4
net install st0623 
net get st0623 
* 命令语法
xtfesing depvar [indepvars] [if] [in] [, id(varname) nowindmeiejer level(#)]

在本部分,我们使用 nlswork.dta 数据。该数据来自美国劳工部的全国调查,包含 1968 年 14 至 26 岁女性信息。

. lxhuse nlswork.dta, clear
. xtset idcode year
. xtdescribe

  idcode:  1, 2, ..., 5159                    n =       4711
    year:  68, 69, ..., 88                    T =         15
           Delta(year) = 1 unit
           Span(year)  = 21 periods
           (idcode*year uniquely identifies each observation)
Distribution of T_i:  min   5%  25%   50%   75%   95%   max
                        1    1   3    5     9    13    15
     Freq.  Percent    Cum. |  Pattern
 ---------------------------+-----------------------
      136      2.89    2.89 |  1....................
      114      2.42    5.31 |  ....................1
       89      1.89    7.20 |  .................1.11
       87      1.85    9.04 |  ...................11
       86      1.83   10.87 |  111111.1.11.1.11.1.11
       61      1.29   12.16 |  ..............11.1.11
       56      1.19   13.35 |  11...................
       54      1.15   14.50 |  ...............1.1.11
       54      1.15   15.64 |  .......1.11.1.11.1.11
     3974     84.36  100.00 | (other patterns)
 ---------------------------+-----------------------
     4711    100.00         |  XXXXXX.X.XX.X.XX.X.XX

可以看出,数据集中包含 4711 个个体,时间跨度为 15 年。从数据结构中可以看出,有 136 个个体仅在第一个时间段观察到,有 114 个仅在最后一个时间段观察到。单期的情况还包括在任何中间时期具有单个观测值的单元,以及由于模型考虑变量中的缺失值而仅进入估计样本一次的具有多个观测值的单元。最后一组不计入 xtdescribe,它是根据数据集中每个单元占用的行数计算的。

被解释变量为工资的对数 ln_wage,解释变量包括总工作经验 ttl_exp 及其平方、工会成员身份 union、年龄 age,以及居住地三个虚拟变量 southc_citynot_smsa。我们分别使用 xtregxtfesing 进行估计。

. generate ttl_exp2 = ttl_exp^2
. xtreg ln_wage ttl_exp* union age south c_city not_smsa, fe cluster(idcode)

Fixed-effects (within) regression               Number of obs     =     19,226
Group variable: idcode                          Number of groups  =      4,150
R-squared:                                      Obs per group:
     Within  = 0.1501                                         min =          1
     Between = 0.2892                                         avg =        4.6
     Overall = 0.2364                                         max =         12
                                                F(7,4149)         =     179.70
corr(u_i, Xb) = 0.1227                          Prob > F          =     0.0000
                             (Std. err. adjusted for 4,150 clusters in idcode)
------------------------------------------------------------------------------
             |               Robust
     ln_wage | Coefficient  std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
     ttl_exp |      0.065      0.004    16.99   0.000        0.058       0.073
    ttl_exp2 |     -0.001      0.000    -7.60   0.000       -0.001      -0.001
       union |      0.096      0.009    10.23   0.000        0.078       0.115
         age |     -0.018      0.002    -9.99   0.000       -0.022      -0.014
       south |     -0.065      0.021    -3.05   0.002       -0.107      -0.023
      c_city |      0.007      0.012     0.55   0.584       -0.017       0.031
    not_smsa |     -0.089      0.019    -4.68   0.000       -0.126      -0.052
       _cons |      1.920      0.040    47.87   0.000        1.841       1.999
-------------+----------------------------------------------------------------
     sigma_u |  .36937539
     sigma_e |  .25428694
         rho |  .67845928   (fraction of variance due to u_i)
------------------------------------------------------------------------------

. xtfesing ln_wage ttl_exp* union age south c_city not_smsa

GMM estimation results
Total number of observations     19226
       Total number of units      4150
        Number of singletons       665 (16.02% of total n. of units)
                             (Std. err. adjusted for 4,150 clusters in idcode)
------------------------------------------------------------------------------
             |               Robust
     ln_wage | Coefficient  std. err.      z    P>|z|     [95% conf. interval]
-------------+----------------------------------------------------------------
beta         |
     ttl_exp |      0.066      0.004    17.23   0.000        0.059       0.074
    ttl_exp2 |     -0.001      0.000    -7.86   0.000       -0.001      -0.001
       union |      0.097      0.009    10.36   0.000        0.079       0.115
         age |     -0.018      0.002   -10.01   0.000       -0.022      -0.014
       south |     -0.062      0.021    -2.94   0.003       -0.104      -0.021
      c_city |      0.008      0.012     0.65   0.514       -0.016       0.032
    not_smsa |     -0.089      0.019    -4.67   0.000       -0.126      -0.051
       _cons |      1.914      0.040    47.71   0.000        1.835       1.992
-------------+----------------------------------------------------------------
bias         |
     ttl_exp |      0.004      0.004     0.97   0.333       -0.004       0.012
    ttl_exp2 |     -0.000      0.000    -1.41   0.159       -0.001       0.000
       union |      0.060      0.012     4.98   0.000        0.036       0.084
         age |      0.006      0.002     3.47   0.001        0.003       0.010
       south |     -0.076      0.023    -3.36   0.001       -0.120      -0.031
      c_city |     -0.033      0.015    -2.22   0.026       -0.063      -0.004
    not_smsa |     -0.128      0.021    -6.02   0.000       -0.170      -0.086
       _cons |     -0.152      0.041    -3.70   0.000       -0.233      -0.072
------------------------------------------------------------------------------
Hansen-based test of homogeneity:        J =     12.68 (p-value =     0.123)
Regression-based test of homogeneity:    F =      1.69 (p-value =     0.096)
------------------------------------------------------------------------------

输出结果报告了同质性假设的两个检验。基于 Hansen 的同质性检验,对应于 GMM 估计的过度识别检验,J 值为 12.68,p 值为 0.123。基于回归的同质性检验 F 为 1.69,p 值为 0.096。这两个检验都不能在 5% 显著性水平上拒绝同质性原假设,由此说明可以在该数据中使用 xtfesing

但是,在这种情况下,标准误的减少是有限的 (或为零)。正如 Bruno 等 (2020) 所指出的,在较长的时间维度或是当单期占比并不大时,效率提升可以忽略不计。

进一步地,将数据限定在最后三年 (85、87 和 88 年),且仅使用白人样本。通过这种方式,人为地生成了一个数据集,其特点是时间维度较小,并且单期的占比较大。再次对比 xtregxtfesing 的估计结果。

. xtreg ln_wage ttl_exp* union age south c_city not_smsa if year>=85 & race==1, fe cluster(idcode)

Fixed-effects (within) regression               Number of obs     =      4,408
Group variable: idcode                          Number of groups  =      2,053
R-squared:                                      Obs per group:
     Within  = 0.0749                                         min =          1
     Between = 0.2816                                         avg =        2.1
     Overall = 0.2561                                         max =          3
                                                F(7,2052)         =      24.13
corr(u_i, Xb) = 0.0353                          Prob > F          =     0.0000
                             (Std. err. adjusted for 2,053 clusters in idcode)
------------------------------------------------------------------------------
             |               Robust
     ln_wage | Coefficient  std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
     ttl_exp |      0.086      0.016     5.41   0.000        0.055       0.117
    ttl_exp2 |     -0.001      0.000    -4.27   0.000       -0.002      -0.001
       union |      0.084      0.021     3.98   0.000        0.042       0.125
         age |     -0.014      0.012    -1.23   0.218       -0.037       0.008
       south |     -0.056      0.067    -0.84   0.404       -0.188       0.076
      c_city |      0.045      0.035     1.29   0.199       -0.024       0.115
    not_smsa |     -0.078      0.046    -1.70   0.090       -0.168       0.012
       _cons |      1.685      0.304     5.54   0.000        1.088       2.282
-------------+----------------------------------------------------------------
     sigma_u |   .4272089
     sigma_e |  .20786549
         rho |  .80857291   (fraction of variance due to u_i)
------------------------------------------------------------------------------

. xtfesing ln_wage ttl_exp* union age south c_city not_smsa if year>=85 & race==1

GMM estimation results
Total number of observations      4408
       Total number of units      2053
        Number of singletons       573 (27.91% of total n. of units)
                             (Std. err. adjusted for 2,053 clusters in idcode)
------------------------------------------------------------------------------
             |               Robust
     ln_wage | Coefficient  std. err.      z    P>|z|     [95% conf. interval]
-------------+----------------------------------------------------------------
beta         |
     ttl_exp |      0.086      0.016     5.50   0.000        0.056       0.117
    ttl_exp2 |     -0.001      0.000    -4.23   0.000       -0.002      -0.001
       union |      0.085      0.021     4.06   0.000        0.044       0.126
         age |     -0.016      0.012    -1.37   0.171       -0.038       0.007
       south |     -0.057      0.067    -0.85   0.398       -0.188       0.075
      c_city |      0.044      0.035     1.25   0.211       -0.025       0.113
    not_smsa |     -0.081      0.046    -1.78   0.075       -0.171       0.008
       _cons |      1.727      0.303     5.70   0.000        1.133       2.321
-------------+----------------------------------------------------------------
bias         |
     ttl_exp |      0.001      0.017     0.06   0.952       -0.033       0.035
    ttl_exp2 |     -0.000      0.000    -0.25   0.804       -0.001       0.001
       union |      0.066      0.028     2.39   0.017        0.012       0.121
         age |      0.008      0.012     0.66   0.509       -0.015       0.030
       south |      0.031      0.069     0.45   0.651       -0.103       0.165
      c_city |     -0.029      0.041    -0.70   0.482       -0.110       0.052
    not_smsa |     -0.138      0.048    -2.86   0.004       -0.232      -0.043
       _cons |     -0.259      0.310    -0.83   0.404       -0.867       0.349
------------------------------------------------------------------------------
Hansen-based test of homogeneity:        J =     16.86 (p-value =     0.032)
Regression-based test of homogeneity:    F =      2.21 (p-value =     0.024)
------------------------------------------------------------------------------

在这种情况下,与 xtreg 相比,使用 xtfesing 的估计结果的标准误差较低。同质性假设在 1% 的显着性水平上不能拒绝。Bruno 等 (2020) 考虑了单期超过 50% 的情况。他们的研究表明,在这种情况下,xtfesing 可以大大提高估计效率。

4. 参考文献

  • Magazzini L, Bruno R L, Stampini M. Using information from singletons in fixed-effects estimation: xtfesing[J]. The Stata Journal, 2020, 20(4): 965-975. -PDF-
  • Bruno R L, Magazzini L, Stampini M. Exploiting information from singletons in panel data analysis: A GMM approach[J]. Economics Letters, 2020, 186: 108519. -PDF-

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 固定效应, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh