温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
作者: 陈滨志 (英国伯明翰大学)
邮箱: Rickchen0910@163.com
[Source]:Gelman A, Stern H. The difference between “significant” and “not significant” is not itself statistically significant[J]. The American Statistician, 2006, 60(4): 328-331. -Link- -Link-
目录
编者按: 本文主要翻译自如下论文,特此致谢
Gelman, A. and Stern, H., 2006. The Difference Between “Significant” and “Not Significant” is not Itself Statistically Significant. The American Statistician, 60(4), pp.328-331. -Link-, -Link2-
在统计分析中,我们会对变量进行「统计显著 / 非显著 (Statistical Significance / Insignificance )」的检验,并在显著性结果与非显著性结果之间进行明显区分。但是这种方法其实有很多弊端:
接下来,本文将根据 Gelman and Stern (2006) 的内容来说明「为什么仅用
现有两个改善癌症患者健康的药物实验:
药物 A:
药物 B:
从统计角度看,药物 A 是在 1% 统计水平上显著,而药物 B 不显著。所以,我们会认为这两个实验在效果上具有很大的差别。但是,这种差异是否会在统计上显著?
实际上,二者的观测差异为 15,标准误为
现在考虑新的药物C:
可以看出,药物 C 与药物 A 都在 1% 统计水平上显著,并且二者差异的统计性检验也是显著,即两种药物对癌症患者都有正向效果,但程度不同。
药物 C 算是对药物 A 的复现吗?单从显著性的角度来看,由于二者都显著,故 C 是对药物 A 的复现。但是,从系数来看,药物 C 的效应和药物 B 更为接近。
从决策角度看,如果只看药物的显著性,在治疗癌症时,我们应该用药物 A 而非药物 B。但是,考虑到二者在统计上并没有显著差异,故上述结论是片面的。
因此,在评价两组效果时,简单比较「变量是否显著」并不是一个好的方法,我们应该「对二者差异进行显著性检验」。
上述的理论阐述只是针对两组对比,在实际的分析中,我们往往会涉及多组对比,所以判断是否显著的问题也就显得更加重要。以公众健康方面的应用为例,由于学者们越来越关注低频电磁场对于人体健康的影响,Blackman et al. (1988) 展开了一系列关于衡量不同频率的电磁场对雏鸡脑部功能的实验。
首先,Blackman et al. (1988) 将雏鸡随机分为控制组和实验组,其中控制组为没有受磁场影响雏鸡,实验组为暴露在不同赫兹频率下 (1 Hz, 15 Hz, 30 Hz, . . . , 510 Hz) 的雏鸡。然后,在不同频率下估计的效应值 (实验组与控制组的平均效果差值) 和标准误。
Blackman et al. (1988) 总结了在不同频率下所观测到的显著性情况。在下图中
Blackman et al. (1988) 对雏鸡脑部的实验是对统计性显著误用的典型案例。该实验只表明了各组频率下是否统计性显著,并没有对比组与组之间的差异是否统计性显著。Gelman and Stern (2006) 使用估计值加减一个单位标准误的置信区间来描述不同赫兹下的实验结果,如下图。可以看出,尽管效应值之间有区别,但大多还是集中在 0.1 附近。
从定义上来说,
人们往往把
Carver (1978) 对于二者的区别举了一个很有趣的例子:
定义两个事件:人死了,记为事件
;人上吊,记为事件 。那么, 表示人因为上吊而死的概率,这个概率可能是很高的,比如 0.97。接着,我们把 和 的位置调换一下,即 ,则问题变成了在人死了的前提下,他是因为上吊而死的条件概率。由于人的死法有很多种,比如上吊、跳楼、服毒、割腕…… 因此,我们不会将 的取值等价于 ,即 0.97。
Note:本部分内容参考了「在追逐 p-value 的道路上狂奔,却在科学的道路上渐行渐远」
温馨提示:文中链接在微信中无法生效,请点击底部「阅读原文」。
鉴于在运用假设检验和
置信区间 (CI) 为在给定的概率下,计算出包含总体值或 “真实” 值的范围。比如,估计值为 29 的系数在 95% 的置信区间 (-1,59) 下是不显著的,因为该区间包含了0;估计值为 29 的系数在 95% 的置信区间 (4,59) 下是显著的,因为该区间不包含 0 且系数估计值在置信区间内。
由于置信区间使用区间估计的方式,因此置信区间通常会比使用二分法的
在实证分析中,随着使用
效应 (effect) 可以是各组之间 (例如,治疗组和未治疗组) 的对比结果,或者可以描述两个相关变量 (例如,治疗剂量和健康状况) 之间的关联程度。效应量是指这种效应在结果中所展现的幅度。
常见的效应量包括未标准化的效应量,比如我们常见的回归系数值;也包括标准化的效应量,如下图所示:
考虑一项研究,其中 30 名学生被随机分配到网络教学的教室 (实验组) 和标准教室 (控制组)。在学期末,对学生进行阅读和数学技能测试,其中阅读测试的得分为 0-15 分,数学测试的得分为 0-100 分。
在这里我们使用 Stata 官网的数据进行效应量的检测,详细的数据描述如下:
use http://www.stata.com/videos13/data/webclass.dta, replace
(Fictitious web-based learning experiment data)
des
Contains data from http://www.stata.com/videos13/data/webclass.dta
obs: 30 Fictitious web-based learning experiment data
vars: 5 5 Sep 2013 11:28
size: 330 (_dta has notes)
---------------------------------------------------------------------
storage display value
variable name type format label variable label
---------------------------------------------------------------------
id byte %9.0g ID Number
treated byte %9.0g treated Treatment Group
agegroup byte %9.0g agegroup Age Group
reading float %9.0g Reading Score
math float %9.0g Math Score
---------------------------------------------------------------------
Sorted by: id
ttest
命令可以对变量进行
ttest math, by(treated)
Two-sample t test with equal variances
--------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+----------------------------------------------------------------
Control | 15 69.98866 3.232864 12.52083 63.05485 76.92246
Treated | 15 79.54943 1.812756 7.020772 75.66146 83.4374
---------+----------------------------------------------------------------
combined | 30 74.76904 2.025821 11.09588 70.62577 78.91231
---------+----------------------------------------------------------------
diff | -9.560774 3.706412 -17.15301 -1.968533
--------------------------------------------------------------------------
diff = mean(Control) - mean(Treated) t = -2.5795
Ho: diff = 0 degrees of freedom = 28
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Pr(T < t) = 0.0077 Pr(|T| > |t|) = 0.0154 Pr(T > t) = 0.9923
可以看出,实验组学生的数学成绩均值较大,但由于 ttest
计算的方法是控制组减去实验组,因此差异均值为负数。在这种情况下,负差异表示实验组 > 控制组。
接下来我们应用 esize
计算
esize twosample math, by(treated) cohensd hedgesg glassdelta
Effect size based on mean comparison
Obs per group:
Control = 15
Treated = 15
---------------------------------------------------------
Effect Size | Estimate [95% Conf. Interval]
--------------------+------------------------------------
Cohen's d | -.9419085 -1.691029 -.1777553
Hedges's g | -.916413 -1.645256 -.1729438
Glass's Delta 1 | -.7635896 -1.52044 .0167094
Glass's Delta 2 | -1.361784 -2.218342 -.4727376
---------------------------------------------------------
Cohen’s d 和 Hedges’s g 表示数学平均成绩相差约
我们对 Glass’s Delta 1 感兴趣,因为它是使用控制组标准偏差计算得出的。数学平均成绩相差
Cohen’s d 和 Hedges’s g 的置信区间不包括零值,而 Glass’s Delta 1 的置信区间包括零值。因此,我们不能完全排除实验组对数学成绩没有影响的可能性。
接下来,我们可以使用方差分析来加入儿童的年龄组分析,以检验所有组数学平均成绩均相等的零假设:
anova math treated##agegroup
Number of obs = 30 R-squared = 0.2671
Root MSE = 10.4418 Adj R-squared = 0.1144
Source | Partial SS df MS F Prob>F
-----------------+-------------------------------------------------
Model | 953.69755 5 190.73951 1.75 0.1617
|
treated | 685.56296 1 685.56296 6.29 0.0193
agegroup | 47.705927 2 23.852963 0.22 0.8051
treated#agegroup | 220.42867 2 110.21433 1.01 0.3789
|
Residual | 2616.7383 24 109.03076
-----------------+-------------------------------------------------
Total | 3570.4358 29 123.11848
模型的
在 anova
命令之后,我们可以使用 estat esize
命令来计算该模型的 Eta 平方 (
estat esize
Effect sizes for linear models
---------------------------------------------------------------
Source | Eta-Squared df [95% Conf. Interval]
------------------+--------------------------------------------
Model | .2671096 5 . .4067062
|
treated | .2076016 1 .0039512 .4451877
agegroup | .0179046 2 . .1458161
treated#agegroup | .0776932 2 . .271507
---------------------------------------------------------------
Note: Eta-Squared values for individual model terms are partial.
可以看出,
我们也可以计算
estat esize, omega
Effect sizes for linear models
---------------------------------------------
Source | Omega-Squared df
----------------------+----------------------
Model | .1110334 5
|
treated | .169005 1
agegroup | -.0614232 2
treated#agegroup | .0008035 2
---------------------------------------------
Note: Omega-Squared values for individual model terms are partial.
其中,统计量参数有疑问的地方是,模型方差变异在数学分数中占 11.4%,但是模型中的实验组变异在数学分数中却占比 17.5%,这是由于统计量计算方式产生的误解,详细的说明可以参考 Pierce et al. (2004)。
由上述分析可知,除了
最后,结果是否有意义还取决于研究的背景和观点。在某些情况下,占结果变异性的 5% 就是统计显著量,而在另外一些情况下,占比 30% 可能还不是统计显著的。
如果想要更深入的检验分组回归后的组间系数差异,我们可以使用 suest
和 bdiff
等命令,详见「连享会-Stata: 如何检验分组回归后的组间系数差异?」。
温馨提示:文中链接在微信中无法生效,请点击底部「阅读原文」。
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟 Stata 33 讲 - 连玉君, 每讲 15 分钟. 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看,所有课程可以随时购买观看。
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 ⭐ | DSGE, 因果推断, 空间计量等 | |
⭕ Stata数据清洗 | 游万海 | 直播, 2 小时,已上线 |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会学习群-常见问题解答汇总:
✨ https://gitee.com/arlionn/WD