Stata:面板聚类标准误-自动确定最优聚类层级和数量-xtregcluster

发布时间:2021-11-06 阅读 546

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:吕卓阳 (厦门大学)
邮箱lvzy20@163.com


目录


1. 研究背景

在针对上市公司的研究中,大家经常在如下两种估计命令之间摇摆不定:第一种是我们控制了时间固定效应、以及公司或行业固定效应,进行面板回归:

. xtreg y x1 x2 i.year, fe 
. reg   y x1 x2 i.year i.industry

第二种是在第一种的基础上,考虑标准误的聚类:

. xtreg y x1 x2 i.year, fe vce(cluster firmID)
. reg   y x1 x2 i.year i.industry, vce(cluster industry)

回归的方程如下:

两种回归的方式不同在于第二种回归考虑了标准误的聚类问题,即假设标准误在公司或行业的层面聚类。这种假设相比于假定标准误差满足 i.i.d 的基础上更加合理,因为实际问题中标准误在某一层面上允许其相关是合理的,譬如行业内的标准误存在相关性,而行业间标准误不相关。

我们平时常常是基于经济学的意义预先设定聚类的数量和分块大小,鲜少从统计意义上去估计最优聚类方法,本文将为大家介绍一种新的「聚类分析」方法及其 Stata 实现命令 xtregcluster。其优点在于不需要先验地假设聚类的数量和分块的大小,而是根据数据建立惩罚函数来降低总残差平方和,本着「让数据说话」的理念寻找最优聚类数量和分块大小。

2. 方法介绍

对于标准的面板数据分析,一般施加所有个体具有相同斜率系数的限制,个体不可观测的异质性取决于个体不随时间改变的效应,但从理论与实证上都很难证明该限制 (Burnside,1996;Baltagi 和 Griffin,1997;Pesaran 等,1999)。

由此,Sarafidis 和 Weber (2015) 开发了一种回归聚类方法,将个体分为不同的聚类。这种聚类不依赖于参数分布的先验假设。譬如,我们想探究学生成绩的影响因素,若在计算标准误时,选择在班级层面上进行聚类调整,则意味着我们假定同一个班级的同学的成绩更具有相关性 (可能源于班风、班主任个人特征等因素)。但这类假设往往是基于研究者的理论分析给出的假设,而非通过数据分析得到的。

Sarafidis 开发的回归聚类方法是基于数据确定的,假设聚类数量与分块的大小都是未知,基于最小化总残差平方和的最优化方法并设置严格增加聚类数量的惩罚函数,从而将个体分为不同的聚类。在每个聚类中,斜率系数是同质的,而在组间斜率的系数是异质的。在没有参数结构的先验信息的情况下,xtregcluster 可以用于探索斜率参数的异质性,适用于分析大样本个体和短时间序列样本。此外,从统计意义上也可以检验单个实体先验分类是否最优。

3. 命令介绍

3.1 理论部分

考虑如下面板回归模型:

其中,yiωt 表示个体 i 在 w 标准误聚类情形下 t 时刻被解释变量的观测值,Xiωt 表示 K×1 阶在标准误聚类情形下的解释变量,βω 为 K×1 阶的估计系数,并且由于在 w 情形下聚类,系数在组内相同但在组间不同。残差项可以分解如下:

其中,eiωt 为个体不可观测的残差项,τt 表示时间固定效应,eiωt 可能与 %