温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
作者: 曾颖娴 (中山大学)
E-mail: 18819442774@163.com
目录
小样本是样本的一种,其与"大样本"相对,通常指样本容量小于或等于30的样本(也有规定指样本容量小于50)。在研究分析中,必须使用统计量的精确分布来进行统计推断。当样本容量 n ≤30 的时侯,构造统计量一般不能借助于大样本理论。
随着社会科学的发展,越来越多的研究学科需要用到统计学的概念和分析方法。而由于学科特点的限制,许多学科无法获得大量的统计数据,如农田种植和工业实验等数据。受限于样本容量,这类学科的统计量的分布为与正态分布不同的新分布,此时,这些学科往往无法达到大样本统计方法对样本容量的要求。由此推动了小样本统计理论的诞生。
小样本理论是由英国统计学家威廉.西利.戈塞特( William Sealy Gosset,1876-1937)于19世纪初创立的。为了制造好喝的啤酒,戈赛特在酿酒厂工作时,需要在发酵的大麦中加入数量精确的酵母。然而,由于菌落数目较少,戈赛特难以得到足够的实验数据以使用大样本统计分析方法,这推动其逐步发现了新的统计方法。戈赛特发现使用 t 分布可以对小样本进行分析,并且得到较为精确的分析结果。其中,t 分布也成为了小样本理论中最为常见的分布之一。
由统计学原理可知,只有当样本量足够大时,统计分析中才可将样本标准差视为总体标准差。而当样本量不足时,将样本标准差视为总体标准差则可能导致较大的误差。而戈赛特将样本容量与总体联系了起来,使得小样本的特征也可以反映总体特征。他使用样本标准差 s 作为总体标准差的近似值,对个体进行 t 转换,实现了小样本数据的价值。
在样本量足够大的时候,标准回归估计量产生的无偏参数估计是有效的,但默认的标准误差估计量没有考虑样本设计,这会导致不一致的标准误差。在线形回归分析中, 当主要样本数量不足时,由于自由度过大,回归结果的标准误的估计值可能将会严重偏低,因此,基于小样本数据进行回归分析的可能会产生过于狭窄的置信区间,从而导致系数的 t 值出现误差,此时测试的第一类错误率将增加。因此,在对小样本数据进行回归分析时有必要进行纠偏处理。
为了提高小样本性能,通常需要在 Stata 的回归分析中进行一些调整。reg_sandwich
是可以对小样本数据进行聚类稳健标准误的纠偏处理的线性回归命令,它提供了聚类稳健标准误估计回归模型。
该命令包括使用聚类稳健方差-协方差矩阵估计线性回归模型的功能,以及基于 Wald 检验统计进行检验单对比和多对比假设的功能,为普通和加权最小二乘线性回归模型提供了聚类稳健方差估计器(即三明治估计器)。使用 reg_sandwich
命令进行回归分析时,其回归结果的系数通常与 regress
命令回归系数一致,但显著性将会有所改变。
通过 Stata 14.2 以上版本可以使用 reg_sandwich
命令对小样本数据进行纠偏调整 。reg_sandwich
命令的语法格式如下:
reg_sandwich depvar indepvars, cluster(varname)
其中,depvar 为因变量,indepvars 为自变量和控制变量,cluster (varname) 是指用于聚类纠偏的变量。
可以通过一个范例来对比分析小样本回归分析进行聚类纠偏处理前后的结果差异。本文使用 Stata 自带数据 nlsw88.dta ,随机抽取50个观察值作为本次范例的小样本,以薪酬 wage 为因变量进行回归,并对行业 industry 进行聚类标准误纠偏,对比分析了纠偏处理前后的回归结果。
sysuse "nlsw88.dta", clear
set seed 135
sample 50, count
tab industry
随机抽取观测值的行业数据如下:
industry | Freq. Percent Cum.
------------------------+-----------------------------------
Manufacturing | 7 14.29 14.29
Wholesale/Retail Trade | 9 18.37 32.65
Finance/Ins/Real Estate | 8 16.33 48.98
Business/Repair Svc | 1 2.04 51.02
Personal Services | 3 6.12 57.14
Entertainment/Rec Svc | 1 2.04 59.18
Professional Services | 16 32.65 91.84
Public Administration | 4 8.16 100.00
------------------------+-----------------------------------
Total | 49 100.00
首先,使用官方命令,未作小样本纠偏处理,直接对薪酬 wage 进行回归分析,使用命令如下:
global x "hours ttl_exp tenure south collgrad married"
reg wage $x, cluster(industry)
est store m1
得到结果如下:
. reg wage $x, cluster(industry)
Linear regression Number of obs = 49
F(6, 7) > 99999.00
Prob > F = 0.0000
R-squared = 0.3160
Root MSE = 7.6605
(Std. Err. adjusted for 8 clusters in industry)
------------------------------------------------------------------------------
| Robust
wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
hours | .1437333 .0344188 4.18 0.004 .0623457 .2251209
ttl_exp | .0458852 .3175244 0.14 0.889 -.7049409 .7967112
tenure | -.0743905 .1811267 -0.41 0.694 -.502687 .3539061
south | -5.076428 1.555506 -3.26 0.014 -8.754615 -1.398241
collgrad | 3.074361 1.84282 1.67 0.139 -1.283216 7.431939
married | -7.676774 4.282104 -1.79 0.116 -17.80234 2.448793
_cons | 11.10602 4.284817 2.59 0.036 .974035 21.238
------------------------------------------------------------------------------
其次,对小样本进行纠偏处理,回归命令如下:
reg_sandwich wage $x, cluster(industry)
est store m2
纠偏处理后得到结果如下:
Robust Small Sample Corrected standard error estimation using OLS
Number of obs = 50
R-squared = 0.3160
Adj R-squared = 0.2183
Root MSE = 7.6605
(Std. Err. adjusted for 8 clusters in industry)
------------------------------------------------------------------------------
| Robust
wage | Coef. Std. Err. dfs p-value [95%Conf. Interval]
-------------+----------------------------------------------------------------
hours | 0.144 0.04 2.20 0.0507 -0.0010 0.2885
ttl_exp | 0.046 0.35 3.48 0.9039 -0.9965 1.0883
tenure | -0.074 0.19 3.88 0.7191 -0.6149 0.4661
south | -5.076 1.56 3.45 0.0384 -9.6794 -0.4734
collgrad | 3.074 1.89 2.99 0.2018 -2.9386 9.0873
married | -7.677 4.04 3.86 0.1330 -19.0625 3.7090
_cons | 11.106 4.28 3.16 0.0766 -2.1319 24.3439
------------------------------------------------------------------------------
可以使用以下命令对比分析纠偏前后的回归结果:
esttab m1 m2, mtitle(reg reg_sandwich) nogap se(%6.4f) ///
star(* 0.1 ** 0.05 *** 0.01)
得到的结果对比如下:
--------------------------------------------
(1) (2)
reg reg_sandwich
--------------------------------------------
hours 0.144*** 0.144***
(0.0344) (0.0366)
ttl_exp 0.0459 0.0459
(0.3175) (0.3534)
tenure -0.0744 -0.0744
(0.1811) (0.1922)
south -5.076** -5.076***
(1.5555) (1.5555)
collgrad 3.074 3.074
(1.8428) (1.8855)
married -7.677 -7.677*
(4.2821) (4.0423)
_cons 11.11** 11.11***
(4.2848) (4.2794)
--------------------------------------------
N 49 50
--------------------------------------------
Standard errors in parentheses
* p<0.1, ** p<0.05, *** p<0.01
根据纠偏前后的结果对比可以发现,纠偏前的 SE 通常偏小,导致 t 值偏大,回归系数的显著性较低。通过 reg_sandwich 命令对回归进行纠偏处理后,回归的系数大小不变,而显著性将提升,降低了假设被错误拒绝的可能性。
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟 Stata 33 讲 - 连玉君, 每讲 15 分钟. 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看,所有课程可以随时购买观看。
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 ⭐ | DSGE, 因果推断, 空间计量等 | |
⭕ Stata数据清洗 | 游万海 | 直播, 2 小时,已上线 |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会学习群-常见问题解答汇总:
✨ https://gitee.com/arlionn/WD