一组显著、一组不显著:二者有差异吗?

发布时间:2020-07-08 阅读 9810

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者: 陈滨志 (英国伯明翰大学)
邮箱: Rickchen0910@163.com

[Source]:Gelman A, Stern H. The difference between “significant” and “not significant” is not itself statistically significant[J]. The American Statistician, 2006, 60(4): 328-331. -Link- -Link-


目录


编者按: 本文主要翻译自如下论文,特此致谢

Gelman, A. and Stern, H., 2006. The Difference Between “Significant” and “Not Significant” is not Itself Statistically Significant. The American Statistician, 60(4), pp.328-331. -Link-, -Link2-

1. 引言

在统计分析中,我们会对变量进行「统计显著 / 非显著 (Statistical Significance / Insignificance )」的检验,并在显著性结果与非显著性结果之间进行明显区分。但是这种方法其实有很多弊端:

  • 统计上的显著并不代表具有实际意义的显著 (Practical Significance)。比如,在评价某种药物对降低血压的效果时,让其他条件不变,我们使用某种药物可以降低 0.1 的血压,并且标准误为 0.03,这在统计上是显著的。但是,从实际角度来看,正常血压一般在 100 左右,0.1 这个值影响可能是不显著的。相反,在其他条件不变的情况下,我们使用某种药物可以降低 10 的血压,并且标准误为 10,这在统计上是不显著的。但是,从实际角度来看,10 可能是显著的。
  • 在结果上采用二分法 (dichotomization) 来区分显著和不显著,会更加趋向于消除客观差异,从而不拒绝原假设。我们还是以评价某种药物对降低血压的效果为例,在其他条件不变的情况下,使用某种药物可以降低 10 的血压,并且标准误为 10,这在统计上是不显著的。因此,我们不拒绝原假设,即这种药物对降低血压毫无效果,但事实上这种情况可能是由「样本的特征或样本量过小」导致的。
  • 除了这些比较常见的对统计显著性的批判外,Gelman and Stern (2006) 还提出了另一个问题,即「一组显著,一组不显著,两组差异检验的结果可能是不显著」。

接下来,本文将根据 Gelman and Stern (2006) 的内容来说明「为什么仅用 p 值来判断实证结果不是一个合格的分析」,并给出正确认识 p 值的原则和误用的解决办法。

2. 统计显著性误用的理论

现有两个改善癌症患者健康的药物实验:

  • 药物 A:

    • 效果估计系数值:25
    • 标准误:10
  • 药物 B:

    • 效果估计系数值:10
    • 标准误:10

从统计角度看,药物 A 是在 1% 统计水平上显著,而药物 B 不显著。所以,我们会认为这两个实验在效果上具有很大的差别。但是,这种差异是否会在统计上显著?

实际上,二者的观测差异为 15,标准误为 102+10214,是不显著的,即不能拒绝原假设 (fail to reject null hypothesis):

现在考虑新的药物C:

  • 药物 C:
    • 效果估计系数值:2.5
    • 标准误:1.0

可以看出,药物 C 与药物 A 都在 1% 统计水平上显著,并且二者差异的统计性检验也是显著,即两种药物对癌症患者都有正向效果,但程度不同。

药物 C 算是对药物 A 的复现吗?单从显著性的角度来看,由于二者都显著,故 C 是对药物 A 的复现。但是,从系数来看,药物 C 的效应和药物 B 更为接近。

从决策角度看,如果只看药物的显著性,在治疗癌症时,我们应该用药物 A 而非药物 B。但是,考虑到二者在统计上并没有显著差异,故上述结论是片面的。

因此,在评价两组效果时,简单比较「变量是否显著」并不是一个好的方法,我们应该「对二者差异进行显著性检验」。

3. 统计显著性误用的案例

上述的理论阐述只是针对两组对比,在实际的分析中,我们往往会涉及多组对比,所以判断是否显著的问题也就显得更加重要。以公众健康方面的应用为例,由于学者们越来越关注低频电磁场对于人体健康的影响,Blackman et al. (1988) 展开了一系列关于衡量不同频率的电磁场对雏鸡脑部功能的实验。

首先,Blackman et al. (1988) 将雏鸡随机分为控制组和实验组,其中控制组为没有受磁场影响雏鸡,实验组为暴露在不同赫兹频率下 (1 Hz, 15 Hz, 30 Hz, . . . , 510 Hz) 的雏鸡。然后,在不同频率下估计的效应值 (实验组与控制组的平均效果差值) 和标准误。

Blackman et al. (1988) 总结了在不同频率下所观测到的显著性情况。在下图中 x 轴代表赫兹值,y 轴代表不同频率下估计的雏鸡脑部钙流失情况,比如 0.1 的效果值表示,相对于控制组,实验组的雏鸡脑部钙流失增加 10%。阴影部分代表在该频率下实验是统计性显著的。可以看出,255, 285 和 315 Hz 对雏鸡脑部的影响高度显著,而 135 和225 Hz 对雏鸡脑部的影响中度显著。

Blackman et al. (1988) 对雏鸡脑部的实验是对统计性显著误用的典型案例。该实验只表明了各组频率下是否统计性显著,并没有对比组与组之间的差异是否统计性显著。Gelman and Stern (2006) 使用估计值加减一个单位标准误的置信区间来描述不同赫兹下的实验结果,如下图。可以看出,尽管效应值之间有区别,但大多还是集中在 0.1 附近。

4. 解决办法

4.1 到底什么是 p 值?

从定义上来说, p 值表示在原假设下观测到某 (极端) 事件的条件概率。假设 D 为极端事件,H 为原假设,那么:

人们往往把 p 值的定义混淆为某 (极端) 事件发生的前提下原假设成立的条件概率,即:

Carver (1978) 对于二者的区别举了一个很有趣的例子:

定义两个事件:人死了,记为事件 D;人上吊,记为事件 H。那么,prob(D|H) 表示人因为上吊而死的概率,这个概率可能是很高的,比如 0.97。接着,我们把 D 和 H 的位置调换一下,即 prob(H|D),则问题变成了在人死了的前提下,他是因为上吊而死的条件概率。由于人的死法有很多种,比如上吊、跳楼、服毒、割腕…… 因此,我们不会将 prob(D|H) 的取值等价于 prob(H|D),即 0.97。

Note:本部分内容参考了「在追逐 p-value 的道路上狂奔,却在科学的道路上渐行渐远」

温馨提示:文中链接在微信中无法生效,请点击底部「阅读原文」。

4.2 正确认识 p

鉴于在运用假设检验和 p 值的过程中的不足,McShane and Gal (2017) 总结了正确认识 p 值的六点原则:

  • p 值可以指示数据与指定的统计模型不兼容的程度。
  • p 值不是衡量所研究假设为真的概率,也不是衡量数据仅由随机机会产生的概率。事实上从 p 值的概念出发,p=0.01 不是说原假设有 1% 的概率为真,而是说数据并不是很接近统计模型和假设的预测。
  • 科学结论和政策决策不应仅基于 p 值是否超过特定阈值,如 0.05。
  • 合理的统计推断需要完整的报告和透明度。
  • p 值或统计显着性不能衡量效应量大小或结果的重要性。
  • 由于 p 值自身的问题,它本身并不能为模型和假设提供很好地衡量证明。

4.3 运用置信区间与效应量

置信区间 (CI) 为在给定的概率下,计算出包含总体值或 “真实” 值的范围。比如,估计值为 29 的系数在 95% 的置信区间 (-1,59) 下是不显著的,因为该区间包含了0;估计值为 29 的系数在 95% 的置信区间 (4,59) 下是显著的,因为该区间不包含 0 且系数估计值在置信区间内。

由于置信区间使用区间估计的方式,因此置信区间通常会比使用二分法的 p 值得到更多的信息。Gelman and Stern (2006) 也是使用置信区间的方法来完善 Blackman et al. (1988) 的实证分析。

在实证分析中,随着使用 p 值作为唯一判定结果的质疑逐渐增加,很多期刊在审稿时都会要求文章作者提供效应量的数值作为实证结果的补充。

效应 (effect) 可以是各组之间 (例如,治疗组和未治疗组) 的对比结果,或者可以描述两个相关变量 (例如,治疗剂量和健康状况) 之间的关联程度。效应量是指这种效应在结果中所展现的幅度。

常见的效应量包括未标准化的效应量,比如我们常见的回归系数值;也包括标准化的效应量,如下图所示:

图片来源:Ellis, P., 2017. The Essential Guide To Effect Sizes. Cambridge: Cambridge University Press.

5. 效应量的 Stata 实现

考虑一项研究,其中 30 名学生被随机分配到网络教学的教室 (实验组) 和标准教室 (控制组)。在学期末,对学生进行阅读和数学技能测试,其中阅读测试的得分为 0-15 分,数学测试的得分为 0-100 分。

在这里我们使用 Stata 官网的数据进行效应量的检测,详细的数据描述如下:

use http://www.stata.com/videos13/data/webclass.dta, replace
(Fictitious web-based learning experiment data)

des

Contains data from http://www.stata.com/videos13/data/webclass.dta
  obs:            30      Fictitious web-based learning experiment data
 vars:             5      5 Sep 2013 11:28
 size:           330      (_dta has notes)
---------------------------------------------------------------------
              storage   display    value
variable name   type    format     label      variable label
---------------------------------------------------------------------
id              byte    %9.0g                 ID Number
treated         byte    %9.0g      treated    Treatment Group
agegroup        byte    %9.0g      agegroup   Age Group
reading         float   %9.0g                 Reading Score
math            float   %9.0g                 Math Score
---------------------------------------------------------------------
Sorted by: id

ttest 命令可以对变量进行 t 检验。在这里,我们对原假设 (实验组与控制组的平均数学成绩差异为0) 进行检验:

ttest math, by(treated)

Two-sample t test with equal variances
--------------------------------------------------------------------------
   Group | Obs        Mean    Std. Err.   Std. Dev.   [95% Conf. Interval]
---------+----------------------------------------------------------------
 Control |  15    69.98866    3.232864    12.52083    63.05485    76.92246
 Treated |  15    79.54943    1.812756    7.020772    75.66146     83.4374
---------+----------------------------------------------------------------
combined |  30    74.76904    2.025821    11.09588    70.62577    78.91231
---------+----------------------------------------------------------------
    diff |       -9.560774    3.706412               -17.15301   -1.968533
--------------------------------------------------------------------------
    diff = mean(Control) - mean(Treated)                    t =  -2.5795
Ho: diff = 0                               degrees of freedom =       28

    Ha: diff < 0              Ha: diff != 0              Ha: diff > 0
 Pr(T < t) = 0.0077      Pr(|T| > |t|) = 0.0154       Pr(T > t) = 0.9923

可以看出,实验组学生的数学成绩均值较大,但由于 ttest 计算的方法是控制组减去实验组,因此差异均值为负数。在这种情况下,负差异表示实验组 > 控制组。t 统计量等于 -2.58,其双尾 p 值为 0.0154,表明两组数学得分之间的差异统计显著。

接下来我们应用 esize 计算 d 族效应量:

esize twosample math, by(treated) cohensd hedgesg glassdelta

Effect size based on mean comparison

                               Obs per group:
                                     Control =         15
                                     Treated =         15
---------------------------------------------------------
        Effect Size |   Estimate     [95% Conf. Interval]
--------------------+------------------------------------
          Cohen's d |  -.9419085    -1.691029   -.1777553
         Hedges's g |   -.916413    -1.645256   -.1729438
    Glass's Delta 1 |  -.7635896     -1.52044    .0167094
    Glass's Delta 2 |  -1.361784    -2.218342   -.4727376
---------------------------------------------------------

Cohen’s d 和 Hedges’s g 表示数学平均成绩相差约 0.93 个标准差,且 95% 置信区间分别为 (1.690.18) 和 (1.650.17)

我们对 Glass’s Delta 1 感兴趣,因为它是使用控制组标准偏差计算得出的。数学平均成绩相差 0.76,置信区间为 (1.520.02)

Cohen’s d 和 Hedges’s g 的置信区间不包括零值,而 Glass’s Delta 1 的置信区间包括零值。因此,我们不能完全排除实验组对数学成绩没有影响的可能性。

接下来,我们可以使用方差分析来加入儿童的年龄组分析,以检验所有组数学平均成绩均相等的零假设:

anova math treated##agegroup

                  Number of obs =      30    R-squared     =  0.2671
                  Root MSE      = 10.4418    Adj R-squared =  0.1144
           Source | Partial SS      df         MS        F    Prob>F
 -----------------+-------------------------------------------------
            Model |  953.69755       5   190.73951      1.75  0.1617
                  |
          treated |  685.56296       1   685.56296      6.29  0.0193
         agegroup |  47.705927       2   23.852963      0.22  0.8051
 treated#agegroup |  220.42867       2   110.21433      1.01  0.3789
                  |
         Residual |  2616.7383      24   109.03076  
 -----------------+-------------------------------------------------
            Total |  3570.4358      29   123.11848  

模型的 F 统计量在统计上不显著 (F=1.75ndf=5ddf=24p=0.1617),但实验组的 F 统计量在统计上显著 (F=6.29ndf=1ddf=24p=0.0193)。

anova 命令之后,我们可以使用 estat esize 命令来计算该模型的 Eta 平方 (η2) 和净 Eta 平方 (η2) 估计值:

estat esize

Effect sizes for linear models

---------------------------------------------------------------
           Source | Eta-Squared     df     [95% Conf. Interval]
------------------+--------------------------------------------
            Model |   .2671096       5            .    .4067062
                  |
          treated |   .2076016       1     .0039512    .4451877
         agegroup |   .0179046       2            .    .1458161
 treated#agegroup |   .0776932       2            .     .271507
---------------------------------------------------------------
Note: Eta-Squared values for individual model terms are partial.

可以看出,η2=0.26,表示在 95% 置信区间 (0.00%, 40.7%) (包括零值) 下,模型方差变异在数学分数中占比 26.7%;净 Eta 平方 η2=0.21,表示剔出其他自变量的效应后,在 95% 置信区间 (0.3%, 20%) (不包括零值) 下,实验组变异在数学分数中占比 21%。

我们也可以计算 r 族的 ω2 统计量:

estat esize, omega

Effect sizes for linear models

---------------------------------------------
               Source | Omega-Squared      df
----------------------+----------------------
                Model |    .1110334         5
                      |
              treated |     .169005         1
             agegroup |   -.0614232         2
     treated#agegroup |    .0008035         2
---------------------------------------------
Note: Omega-Squared values for individual model terms are partial.

其中,统计量参数有疑问的地方是,模型方差变异在数学分数中占 11.4%,但是模型中的实验组变异在数学分数中却占比 17.5%,这是由于统计量计算方式产生的误解,详细的说明可以参考 Pierce et al. (2004)。

由上述分析可知,除了 η2 统计量置信区间包括 0,其余的统计量置信区间都不包括 0,因此我们不能排除不起作用的可能性。

最后,结果是否有意义还取决于研究的背景和观点。在某些情况下,占结果变异性的 5% 就是统计显著量,而在另外一些情况下,占比 30% 可能还不是统计显著的。

如果想要更深入的检验分组回归后的组间系数差异,我们可以使用 suestbdiff 等命令,详见「连享会-Stata: 如何检验分组回归后的组间系数差异?」

温馨提示:文中链接在微信中无法生效,请点击底部「阅读原文」。

参考文献

  • Gelman A, Stern H. The difference between “significant” and “not significant” is not itself statistically significant[J]. The American Statistician, 2006, 60(4): 328-331. -Link- -Link-
  • Berben L, Sereika S M, Engberg S. Effect size estimation: methods and examples[J]. International journal of nursing studies, 2012, 49(8): 1039-1047. -Link-
  • Carver R. The case against statistical significance testing[J]. Harvard Educational Review, 1978, 48(3): 378-399. -Link-
  • McShane B B, Gal D. Statistical significance and the dichotomization of evidence[J]. Journal of the American Statistical Association, 2017, 112(519): 885-895. -Link-
  • Pierce C A, Block R A, Aguinis H. Cautionary note on reporting eta-squared values from multifactor ANOVA designs[J]. Educational and psychological measurement, 2004, 64(6): 916-924. -Link-
  • 在追逐 p-value 的道路上狂奔,却在科学的道路上渐行渐远 -Link-
  • 连享会-Stata: 如何检验分组回归后的组间系数差异? -Link-

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD