Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:关欣 (南开大学)
邮箱:gx0222@126.com
编者按:本文主要摘译自下文,特此致谢!
Source:Magazzini L, Bruno R L, Stampini M. Using information from singletons in fixed-effects estimation: xtfesing[J]. The Stata Journal, 2020, 20(4): 965-975. -PDF-
目录
固定效应模型通过剔除不随时间变化的因素,即只考虑组内变换,来缓解遗漏变量偏误问题。但是,当某些个体只有一期数据时,他们的组内变化完全等于零,此时该如何处理呢?
本文将介绍由 Magazzini (2020) 提出的 xtfesing
命令。该命令是在 GMM 框架下构建的,允许在固定效应模型中使用一期数据样本,旨在提高估计效率。该命令的有效性依赖于同质性假设,即面板和单期 OLS 估计的偏差相同。
在使用过程中,我们可以使用 xtdes
命令统计 xtfesing
命令做稳健性检验。该命令在应用中可提高大约 8%-9% 的估计效率。
考虑静态面板数据模型:
其中,
我们用下标
其中
FE 估计一致性依赖于严格的外生性假设,并且在非平衡面板情况下,依赖于 the process driving attrition 假设。 当观察值随机缺失时,以下成立:
注意,FE 估计的一致性依赖于
相反,在解释变量
当我们添加
利用上述矩条件的 GMM 方法可以获得对
概率极限等于
例如,当
同质性假设可以通过完全交互 OLS 回归模型检验。为单期观测值定义一个虚拟变量,如果 xtfesing
假设的有效性。
* 命令安装
net sj 20-4
net install st0623
net get st0623
* 命令语法
xtfesing depvar [indepvars] [if] [in] [, id(varname) nowindmeiejer level(#)]
在本部分,我们使用 nlswork.dta 数据。该数据来自美国劳工部的全国调查,包含 1968 年 14 至 26 岁女性信息。
. lxhuse nlswork.dta, clear
. xtset idcode year
. xtdescribe
idcode: 1, 2, ..., 5159 n = 4711
year: 68, 69, ..., 88 T = 15
Delta(year) = 1 unit
Span(year) = 21 periods
(idcode*year uniquely identifies each observation)
Distribution of T_i: min 5% 25% 50% 75% 95% max
1 1 3 5 9 13 15
Freq. Percent Cum. | Pattern
---------------------------+-----------------------
136 2.89 2.89 | 1....................
114 2.42 5.31 | ....................1
89 1.89 7.20 | .................1.11
87 1.85 9.04 | ...................11
86 1.83 10.87 | 111111.1.11.1.11.1.11
61 1.29 12.16 | ..............11.1.11
56 1.19 13.35 | 11...................
54 1.15 14.50 | ...............1.1.11
54 1.15 15.64 | .......1.11.1.11.1.11
3974 84.36 100.00 | (other patterns)
---------------------------+-----------------------
4711 100.00 | XXXXXX.X.XX.X.XX.X.XX
可以看出,数据集中包含 4711 个个体,时间跨度为 15 年。从数据结构中可以看出,有 136 个个体仅在第一个时间段观察到,有 114 个仅在最后一个时间段观察到。单期的情况还包括在任何中间时期具有单个观测值的单元,以及由于模型考虑变量中的缺失值而仅进入估计样本一次的具有多个观测值的单元。最后一组不计入 xtdescribe
,它是根据数据集中每个单元占用的行数计算的。
被解释变量为工资的对数 ln_wage,解释变量包括总工作经验 ttl_exp 及其平方、工会成员身份 union、年龄 age,以及居住地三个虚拟变量 south、c_city、not_smsa。我们分别使用 xtreg
和 xtfesing
进行估计。
. generate ttl_exp2 = ttl_exp^2
. xtreg ln_wage ttl_exp* union age south c_city not_smsa, fe cluster(idcode)
Fixed-effects (within) regression Number of obs = 19,226
Group variable: idcode Number of groups = 4,150
R-squared: Obs per group:
Within = 0.1501 min = 1
Between = 0.2892 avg = 4.6
Overall = 0.2364 max = 12
F(7,4149) = 179.70
corr(u_i, Xb) = 0.1227 Prob > F = 0.0000
(Std. err. adjusted for 4,150 clusters in idcode)
------------------------------------------------------------------------------
| Robust
ln_wage | Coefficient std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
ttl_exp | 0.065 0.004 16.99 0.000 0.058 0.073
ttl_exp2 | -0.001 0.000 -7.60 0.000 -0.001 -0.001
union | 0.096 0.009 10.23 0.000 0.078 0.115
age | -0.018 0.002 -9.99 0.000 -0.022 -0.014
south | -0.065 0.021 -3.05 0.002 -0.107 -0.023
c_city | 0.007 0.012 0.55 0.584 -0.017 0.031
not_smsa | -0.089 0.019 -4.68 0.000 -0.126 -0.052
_cons | 1.920 0.040 47.87 0.000 1.841 1.999
-------------+----------------------------------------------------------------
sigma_u | .36937539
sigma_e | .25428694
rho | .67845928 (fraction of variance due to u_i)
------------------------------------------------------------------------------
. xtfesing ln_wage ttl_exp* union age south c_city not_smsa
GMM estimation results
Total number of observations 19226
Total number of units 4150
Number of singletons 665 (16.02% of total n. of units)
(Std. err. adjusted for 4,150 clusters in idcode)
------------------------------------------------------------------------------
| Robust
ln_wage | Coefficient std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
beta |
ttl_exp | 0.066 0.004 17.23 0.000 0.059 0.074
ttl_exp2 | -0.001 0.000 -7.86 0.000 -0.001 -0.001
union | 0.097 0.009 10.36 0.000 0.079 0.115
age | -0.018 0.002 -10.01 0.000 -0.022 -0.014
south | -0.062 0.021 -2.94 0.003 -0.104 -0.021
c_city | 0.008 0.012 0.65 0.514 -0.016 0.032
not_smsa | -0.089 0.019 -4.67 0.000 -0.126 -0.051
_cons | 1.914 0.040 47.71 0.000 1.835 1.992
-------------+----------------------------------------------------------------
bias |
ttl_exp | 0.004 0.004 0.97 0.333 -0.004 0.012
ttl_exp2 | -0.000 0.000 -1.41 0.159 -0.001 0.000
union | 0.060 0.012 4.98 0.000 0.036 0.084
age | 0.006 0.002 3.47 0.001 0.003 0.010
south | -0.076 0.023 -3.36 0.001 -0.120 -0.031
c_city | -0.033 0.015 -2.22 0.026 -0.063 -0.004
not_smsa | -0.128 0.021 -6.02 0.000 -0.170 -0.086
_cons | -0.152 0.041 -3.70 0.000 -0.233 -0.072
------------------------------------------------------------------------------
Hansen-based test of homogeneity: J = 12.68 (p-value = 0.123)
Regression-based test of homogeneity: F = 1.69 (p-value = 0.096)
------------------------------------------------------------------------------
输出结果报告了同质性假设的两个检验。基于 Hansen 的同质性检验,对应于 GMM 估计的过度识别检验,J 值为 12.68,p 值为 0.123。基于回归的同质性检验 F 为 1.69,p 值为 0.096。这两个检验都不能在 5% 显著性水平上拒绝同质性原假设,由此说明可以在该数据中使用 xtfesing
。
但是,在这种情况下,标准误的减少是有限的 (或为零)。正如 Bruno 等 (2020) 所指出的,在较长的时间维度或是当单期占比并不大时,效率提升可以忽略不计。
进一步地,将数据限定在最后三年 (85、87 和 88 年),且仅使用白人样本。通过这种方式,人为地生成了一个数据集,其特点是时间维度较小,并且单期的占比较大。再次对比 xtreg
和 xtfesing
的估计结果。
. xtreg ln_wage ttl_exp* union age south c_city not_smsa if year>=85 & race==1, fe cluster(idcode)
Fixed-effects (within) regression Number of obs = 4,408
Group variable: idcode Number of groups = 2,053
R-squared: Obs per group:
Within = 0.0749 min = 1
Between = 0.2816 avg = 2.1
Overall = 0.2561 max = 3
F(7,2052) = 24.13
corr(u_i, Xb) = 0.0353 Prob > F = 0.0000
(Std. err. adjusted for 2,053 clusters in idcode)
------------------------------------------------------------------------------
| Robust
ln_wage | Coefficient std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
ttl_exp | 0.086 0.016 5.41 0.000 0.055 0.117
ttl_exp2 | -0.001 0.000 -4.27 0.000 -0.002 -0.001
union | 0.084 0.021 3.98 0.000 0.042 0.125
age | -0.014 0.012 -1.23 0.218 -0.037 0.008
south | -0.056 0.067 -0.84 0.404 -0.188 0.076
c_city | 0.045 0.035 1.29 0.199 -0.024 0.115
not_smsa | -0.078 0.046 -1.70 0.090 -0.168 0.012
_cons | 1.685 0.304 5.54 0.000 1.088 2.282
-------------+----------------------------------------------------------------
sigma_u | .4272089
sigma_e | .20786549
rho | .80857291 (fraction of variance due to u_i)
------------------------------------------------------------------------------
. xtfesing ln_wage ttl_exp* union age south c_city not_smsa if year>=85 & race==1
GMM estimation results
Total number of observations 4408
Total number of units 2053
Number of singletons 573 (27.91% of total n. of units)
(Std. err. adjusted for 2,053 clusters in idcode)
------------------------------------------------------------------------------
| Robust
ln_wage | Coefficient std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
beta |
ttl_exp | 0.086 0.016 5.50 0.000 0.056 0.117
ttl_exp2 | -0.001 0.000 -4.23 0.000 -0.002 -0.001
union | 0.085 0.021 4.06 0.000 0.044 0.126
age | -0.016 0.012 -1.37 0.171 -0.038 0.007
south | -0.057 0.067 -0.85 0.398 -0.188 0.075
c_city | 0.044 0.035 1.25 0.211 -0.025 0.113
not_smsa | -0.081 0.046 -1.78 0.075 -0.171 0.008
_cons | 1.727 0.303 5.70 0.000 1.133 2.321
-------------+----------------------------------------------------------------
bias |
ttl_exp | 0.001 0.017 0.06 0.952 -0.033 0.035
ttl_exp2 | -0.000 0.000 -0.25 0.804 -0.001 0.001
union | 0.066 0.028 2.39 0.017 0.012 0.121
age | 0.008 0.012 0.66 0.509 -0.015 0.030
south | 0.031 0.069 0.45 0.651 -0.103 0.165
c_city | -0.029 0.041 -0.70 0.482 -0.110 0.052
not_smsa | -0.138 0.048 -2.86 0.004 -0.232 -0.043
_cons | -0.259 0.310 -0.83 0.404 -0.867 0.349
------------------------------------------------------------------------------
Hansen-based test of homogeneity: J = 16.86 (p-value = 0.032)
Regression-based test of homogeneity: F = 2.21 (p-value = 0.024)
------------------------------------------------------------------------------
在这种情况下,与 xtreg
相比,使用 xtfesing
的估计结果的标准误差较低。同质性假设在 1% 的显着性水平上不能拒绝。Bruno 等 (2020) 考虑了单期超过 50% 的情况。他们的研究表明,在这种情况下,xtfesing
可以大大提高估计效率。
Note:产生如下推文列表的 Stata 命令为:
lianxh 固定效应, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh