Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:王本丞 (中国人民大学)
邮箱:wangbencheng@ruc.edu.cn
编者按:本文主要参考自下文,特此致谢!
Source:MacKinnon J G, Nielsen M Ø, Webb M D. Leverage, influence, and the jackknife in clustered regression models: Reliable inference using summclust[J]. arXiv preprint arXiv:2205.03288, 2022. -PDF- -Link-
目录
在计量经济学的统计推断中,标准误扮演着重要角色。不过在当前的研究中,误差项满足独立同分布 (iid) 的假定并不能很好的反映真实情况,因此越来越多的研究者认为需要对标准误进行调整。其中聚类标准误 (cluster SE) 是一种最为常见的方法。
聚类稳健标准误放松了误差项满足独立同分布的假定,允许聚类内部个体间误差项存在相关性,但是聚类之间个体误差项不存在相关性。当上述条件得到满足,采用聚类调整的 OLS 估计值是无偏的。然而,聚类层级的选择会影响系数显著性和统计推断的结果,如何判断实证研究中聚类是否有效?
MacKinnon 等 (2022) 为聚类推断的有效性提供了检验方法。他们认为通过一系列特征统计量的分布特征可以分析聚类的有效性,并提供了 Stata 命令 summclust
。接下来,本文将介绍 MacKinnon 等 (2022) 提出的聚类有效性分析思路以及 Stata 实操过程,以便加深读者对于相关内容的理解,提高实证研究的可靠性。
聚类稳健标准误是当前使用最多的标准误调整方法。该方法在聚类内部允许个体之前存在任意形式的相关性和异质性,但是在聚类之间不存在任何相关性。给定采用聚类调整的回归方程:
其中,全部样本划分为
其中,
一般意义上讲,估计量的渐进性质取决于聚类数量
在样本数据的分析中,我们常用离群值 (outlier)、杠杆点 (leverage)、偏杠杆点 (partial leverage) 和强重要点 (influence) 进行异质性分析。为了更好的理解 MacKinnon 等 (2022) 的处理, 将上述概念展开如下:
上述特殊点的存在,表征了样本分布存在较强的异质性。在聚类调整估计中,我们的估计单位不再是样本个体,而是聚类使用的分组
从聚类的角度考察单个聚类与聚类空间中心的偏离程度。在估计
高杠杆的聚类可以通过比较
聚类层面的偏杠杆计算如下:
其中,
强影响类聚类是指在删除该聚类后,标准误估计出现较大变化的类,删除聚类
汇报特定参数估计的聚类
通过上述三种表征聚类异质性的方法,MacKinnon 等 (2022) 提供了分析实证分析中聚类可靠性的思路。当
聚类稳健标准误 (CV_1) 在样本较小的情况下不具备良好的性质,因此可以采用 Jacknife 方法进行小样本聚类推断。实践中,采用 Jacknife 方法估计
同时,聚类情况下的 CV_3 标准误计算如下:
MacKinnon 等 (2022) 为上述聚类异质性分析提供了 Stata 命令 summclust
,接下来,我们将对该命令进行介绍。
summclust
命令安装:
ssc install summclust, replace
summclust
命令语法:
summclust depvar, yvar(varname) xvar(varlist) cluster(varname) [ options]
其中,
depavr
:回归中主要关注的解释变量,也是汇报不同聚类标准误的变量;yvar(varname)
:被解释变量;xvar(varlist)
:其他解释变量;cluster(varname)
:聚类层级,例如行业层面、城市层面等;fevar(varname)
:控制固定效应,例如城市固定效应、时间固定效应等。options
包括:
svars
汇报其他的描述性统计结果;gstar
计算有效聚类的 table
汇报每个聚类的描述性统计结果;jackknife
汇报 我们研究的问题是女性婚姻的工资回报率,使用的数据是 nlswork.dta
。其中,被解释变量是工资水平 lnwage,核心解释变量为是否结婚 msp,控制变量包括 union 和 race。此外还控制了 grade、age、birth_yr 等固定效应,并聚类到行业 (ind) 层面。
. webuse nlswork, clear
. reg ln_wage msp union race i.grade i.age i.birth_yr, cluster(ind)
Linear regression Number of obs = 19,130
F(11, 11) = .
Prob > F = .
R-squared = 0.2586
Root MSE = .40341
(Std. err. adjusted for 12 clusters in ind_code)
------------------------------------------------------------------------------
| Robust
ln_wage | Coefficient std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
msp | -0.028 0.009 -2.96 0.013 -0.048 -0.007
union | 0.204 0.061 3.33 0.007 0.069 0.339
race | -0.086 0.016 -5.34 0.000 -0.122 -0.051
------------------------------------------------------------------------------
聚类到行业层面的回归结果如上所示,msp 的估计系数为 -0.028,聚类稳健标准误为 0.009,summclust
命令进行估计,分析聚类到行业层面是否存在异质性。
. summclust msp, yvar(ln_wage) xvar(union race) fevar(grade age birth_yr) cluster(ind)
SUMMCLUST - MacKinnon, Nielsen, and Webb
Cluster summary statistics for msp when clustered by ind_code.
There are 19130 observations within 12 ind_code clusters.
Regression Output
s.e. | Coeff Sd. Err. t-stat P value CI-lower CI-upper
-------+----------------------------------------------------------------
CV1 | -0.027515 0.009293 -2.9608 0.0130 -0.047969 -0.007061
CV3 | -0.027515 0.014064 -1.9564 0.0763 -0.058470 0.003440
------------------------------------------------------------------------
Cluster Variability
Statistic | Ng Leverage Partial L. beta no g
-----------+-----------------------------------------------------
min | 38.00 0.093321 0.001622 -0.033200
q1 | 159.00 0.672924 0.008649 -0.029275
median | 995.50 3.515491 0.056682 -0.027765
mean | 1594.17 5.416667 0.083333 -0.026920
q3 | 2335.50 7.731883 0.120933 -0.025975
max | 6335.00 20.289183 0.312995 -0.015835
-----------+-----------------------------------------------------
coefvar | 1.19 1.152965 1.141326 0.162898
回归中汇报了 msp 的不同聚类标准误,CV_1 表示常规的聚类稳健标准误,结果和上表中 reg
回归结果一致。在这种情况下,结婚对于工资收入具有负显著 (95% 水平) 的影响。但是,当我们使用 CV_3 标准误时,标准误估计为 0.014,
上述分析表明行业层面聚类存在类之间较强的异质性,对于统计推断产生了影响,为了增加实证研究的可信度,应当汇报
. summclust msp, yvar(ln_wage) xvar(union race) fevar(grade age birth_yr) ///
> absorb(ind) cluster(ind) table svars jack rho(0.5)
SUMMCLUST - MacKinnon, Nielsen, and Webb
Cluster summary statistics for msp when clustered by ind_code.
There are 19130 observations within 12 ind_code clusters.
Regression Output
s.e. | Coeff Sd. Err. t-stat P value CI-lower CI-upper
-------+----------------------------------------------------------------
CV1 | -0.020895 0.007084 -2.9494 0.0132 -0.036488 -0.005302
CV3 | -0.020895 0.007931 -2.6345 0.0232 -0.038352 -0.003438
CV3J | -0.020895 0.007921 -2.6381 0.0231 -0.038328 -0.003462
------------------------------------------------------------------------
Cluster Variability
Statistic | Ng Leverage Partial L. beta no g
-----------+-----------------------------------------------------
min | 38.00 0.087112 0.001561 -0.023382
q1 | 159.00 0.656606 0.008621 -0.022428
median | 995.50 3.442673 0.056073 -0.021258
mean | 1594.17 5.333333 0.083333 -0.020770
q3 | 2335.50 7.605927 0.121546 -0.020189
max | 6335.00 20.011074 0.312377 -0.015001
-----------+-----------------------------------------------------
coefvar | 1.19 1.155829 1.141658 0.120094
Effective Number of Clusters
-----------------------------
G*(0) = 5.468
-----------------------------
G*(rho) and G*(1) are not available.
There are fixed effects at the cluster or subcluster level.
Alternative Sample Means and Ratios to Arithmetic Mean
| Ng Leverage Partial L. beta no g
----------------+------------------------------------------------------
Harmonic Mean | 227.315 0.644626 0.010404 .
Harmonic Ratio | 0.143 0.120867 0.124846 .
Geometric Mean | 687.061 2.334997 0.035552 .
Geometric Ratio | 0.431 0.437812 0.426622 .
Quadratic Mean | 2413.502 7.954736 0.123456 0.020907
Quadratic Ratio | 1.514 1.491513 1.481475 -1.006589
-----------------------------------------------------------------------
Cluster by Cluster Statistics
ind_code | Ng Leverage Partial L. beta no g
-----------+-----------------------------------------------------
1 | 130 0.592119 0.005974 -0.021222
2 | 38 0.087112 0.001561 -0.021028
3 | 185 0.721093 0.009621 -0.021496
4 | 3747 13.514215 0.201461 -0.015001
5 | 1069 3.346972 0.060079 -0.023382
6 | 2912 10.224230 0.151294 -0.021295
7 | 1759 4.987623 0.091798 -0.019349
8 | 572 2.773414 0.027859 -0.023240
9 | 922 3.792664 0.052068 -0.021211
10 | 133 0.411110 0.007621 -0.021984
11 | 6335 20.011074 0.312377 -0.017157
12 | 1328 3.538374 0.078286 -0.022872
-----------------------------------------------------------------
总之,MacKinnon 等 (2022) 的建议在于应当对于聚类标准误的使用更加谨慎。在使用聚类标准误的时候,可以通过 summclust
命令汇报
Note:产生如下推文列表的 Stata 命令为:
lianxh 标准误, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh