25常见种误区:P值、置信区间和统计功效

发布时间:2020-07-28 阅读 2293

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者: 笑花心 (连享会助教)
邮箱: RHs_knowledge@126.com

Source: Greenland, S., Senn, S.J., Rothman, K.J. et al. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol 31, 337–350 (2016). -Link-


目录


自统计理论发展至今,P 值等统计指标已经被广泛应用于包括生物、心理、经济在内的多个领域,同时有关其含义和地位的争论和质疑也从未停止过。

Basic and Applied Social Psychology 曾在 2015 年发文全面禁止包括置信区间在内的检验指标。2019 年 3 月,Nature 发表的评论,“Scientists rise up against statistical significance”,再度引起了学术界对P值的思考。

考虑到假设检验在科学研究中的重要影响,Greenland 等 (2016) 围绕 P 值、置信区间和统计功效这三个指标展开了一系列探讨。现在我们将该文章中的主要观点介绍给大家。

1. 问题的引入

作者认为如今的研究在统计模型、假设和检验方面存在以下问题:

首先,任何统计推断方法都立足于大量前提假设,这些假设涉及数据收集和分析,结果阐明和展示各个过程。然而很多问题的出现正是由于统计模型所包含的假设缺乏真实性或者勉强称为不合理所导致的;

接着,在确定模型的适用范围时也会出现问题,因为一项研究得到的模型除了能较好地解释已观测到数据外,也应对未观测到但依据模型假设可能存在的其他数据有一个较好的刻画;

随后,统计模型常常是以高度简洁和抽象的形式展现出来的,因而很多假设就不会引起受众的注意,而这些假设正是统计方法和相关解释的前提;

此外,在大多数统计检验的应用实例中,研究所提出的假设常以“某个效应有大小有个确切数值”的形式出现,事实上,检验可以有多种形式,如检验“影响大小是否落在某一范围中”;

很多统计教学和实践形成了一种强烈 (且有害的) 观点,即研究的主要目的应是检验原假设。事实上,大多数对于统计检验的描述都只关注检验原假设,该话题被统称为 “Null Hypothesis Significance Testing” (NHST).

2. 一些观点

2.1 关于 P 值的定义

确知整个统计模型 (所有用来计算 P 值的假设) 正确的前提下,P 值可视作已观测数据和研究人员预测或期望结果之间相容性的一种统计描述。

特别地,数据和模型预测间的差异会通过检验统计量 (比如 t 统计量或者卡方统计量) 进行测量。于是 P 值就可被认为:当包括原假设在内的所有模型假设都是正确的情况下,研究所选择的检验统计量至少和其观测值一样大的可能性。

这种定义包含了传统观点中缺失的一个关键点:从逻辑上,P 值检验数据生成的所有假设 (整个模型) ,而不仅是用来作为研究目标的待验假设 (比如原假设)。

2.2 关于 P 值的解读

当每一假设都是正确的情况下,P 值越小,的确可以认为数据的出现是更为罕见的;但是非常小的 P 值不能告诉研究人员哪一假设是不正确的。

举例来说,P 值非常小可能是由于待验假设错误导致的,但是也可能仅仅 (或同时) 由于研究设计被违反造成的,还有可能仅是由于研究者只挑选数值小的结果进行展示导致的。

相反,P 值越大意味着在模型假设下数据的出现并不是极端情况,但是并不是表明模型或者其某一方面 (如作为检验目标的假设) 是正确的;有可能仅仅 (或同时) 是由于 (再一次) 出现了研究设计被违反的情况,或者研究者挑选了数值大的 P 值进行展示造成的。

2.3 P 值和临界值的区别

作者指出,P 值可被视为刻画数据和整个模型相容性的一个连续指标,其值从0 (完全不相容) 到1 (完全相容) 进行变化,在这意义上,可以认为 P 值测算了模型与数据的符合程度。然而,太多时候 P 值的意义因人们以非黑即白的观点而弱化:如果 P 值落在临界值 (通常是0.05) 或是落在小于临界值的一侧,就被称为“统计显著”,否则就被称为“不显著”。

“显著程度”和“ alpha 值” (α) 经常被用来指代临界值;然而,“显著程度”会招致临界值和 P 值自身的混淆。两者存在巨大差别:临界值 α 应被看作是事前给定的,因而是研究设计的一部分且不随数据变化。相反 P 值依据数据得出,因而是一个分析结果,直到计算才能得到其数值。

2.4 置信区间的性质

如果研究人员按照有效方法重复计算测算 95% 置信区间,那么平均来说,其中 95% 将包含 (或覆盖) 真实效应大小。因此,上述置信水平被称作覆盖概率 (coverage probability) 。

正如 Neyman 反复强调的,覆盖概率是有效模型计算出的一系列置信区间的性质,而不是任何一个单一置信区间的性质。

2.5 统计功效的性质

( 为了便于理解, 根据原假设 H0 和备择假设 HA,本文将临界值 α、type-II 或者 β 出错率以及 功效 power 的关系利用下图进行简单示意:)

Type-II 或者 β 出错率,与 P 值和置信区间一样,是通过重复相同研究设计得出的,因而也是一种频率概率。

3. 25个常见误区

3.1 单一P值涉及的常见误区

1 “P值是待验假设为真的可能性”。举例来说,如果原假设得出 p=0.01 的结果,那么原假设为真的机率只有 1%;如 P=0.40,原假设为真的机率则有 40%

P值假定待验假设是正确的,其仅仅表示已有数据与根据待验假设和其他假设 (潜在的统计模型) 预测情况的一致程度。因此,P=0.01 意味着数据和模型预测的情况不是很接近,P=0.40 相比之下暗示数据和模型预测情况更为相近。

2 “原假设的P值表示的是仅由运气因素导致所观测关联的可能性”。举例来说,如果原假设对应的 p 值为 0.08,则这种关联源于巧合的可能性有 8%。

这种观点的错误之处在于:认为仅由运气导致了观测现象就相当于在逻辑上认为包括原假设在内的任何用来计算 P 值的假设都是正确的。

3 “显著的检验结果 (P≤0.05) 意味着待验假设为假或应被拒绝。”

较小的 P 值表明在用以计算该值的所有假设 (包括待验假设) 都是正确的情况下,数据的出现是罕见的;P 值较小也可能是由于随机误差过大或者除待验假设外的其他假设被违背导致的。

举例:比如为了研究修建道路对当地政府支持率的影响,研究者通过采访当地居民得到了一份数据。原假设为该举措对支持率没有影响(或影响大小为0),研究者的结果在 0.05 水平拒绝了原假设。结果是否可信呢?政府是否应调整自己的政策呢?

  1. 首先采访到的居民是否能代表所有居民呢?很可能愿意给予回应的居民都是存在一定期望的,比如房子靠近道路的居民 A 会为施工带来的噪音而抱怨,或者居民 B 支持修建道路好让自己进城送水果省些力气,尽管大多数居民因为住所与道路相隔甚远而根本不在意;
  2. 即使满足样本具有代表性的假设,即现在所有可能去给政府打分的居民都给出了自己的想法,还有可能违背"居民不说谎"的假设。比如一同接受采访的某居民顾及亲戚 A 的感受也向研究者抱怨,但实际上他本身并不在意这件事。

4 “不显著的检验结果 (P > 0.05) 意味着待验假设为真或应被接受。”

较大的 P 值仅是预示着在用于计算该值的所有假设(包括待验假设)都是正确的情况下,数据的出现并不是罕见的。

5 “较大的 P 值可作为支持待验假设的证据。”

事实上,任何小于 1 的 P 值都表明其对应的待验假设并不是与数据符合程度最高的假设,因为任何一个拥有更大 P 值的假设相比之下与数据的一致程度更高。

6 “原假设的P值如果大于0.5,意味着未观测到影响,或者说证实了没有影响。”

观测到原假设对应的P值大于 0.05 仅意味着:原假设是P值大于 0.05 的众多假设之一。

7 “统计显著性意味着研究发现了具有重大科学意义或者具有实质性影响的关联。”

当研究的规模较大时,极小的影响或者轻微的假设违背就可能导致原假设的统计显著性。数值较小的 P 值意味着当所有假设 (包括待验假设) 正确的情况下,数据的出现是罕见的,但是出现罕见数据的情况可能是没有临床意义的。

8 “统计结果不显著意味着效应量较小。”

当研究规模较小时,即使很大的效应也会淹没在噪声中,故而难以通过统计检验发现统计显著性。

9 “ P 值是原假设为真时,观测数据出现的机率。”

举例来说,P=0.05 意味着在原假设为真的前提下,所观测现象出现的情况占 5%。P 值不仅针对了我们所观察到的情况进行说明,也暗示了比观察到的现象更为极端的情况 (这里的“极端”可用特定的方式进行测量)。

10 “如果依据 P≤0.05 拒绝原假设,则犯错 (所谓“重大发现”为假阳性) 的可能性为 5%.”

假设待验假设为真,当该假设被拒绝时,犯错的可能性为 100%,而不是 5%。5%仅仅意味着当待验假设和所用其他假设都是正确的情况下,通过多次不同研究进行检验,错误拒绝待验假设的频率情况。

11 “ P=0.05 和 P≤0.05 含义相同。”

类比:“身高等于 2m” 的情况仅包含很少的人,这些人非常高;“身高小于或等于 2m”包含小孩子在内的大多数人。

12 “ P 值以不等式形式表述时更为恰当”。举例来说,当 P=0.015报告 “ P<0.02”;以及当 P=0.06 或 P=0.70 时报告 “ P>0.05”。

作者反对这种做法,因为这样做会使读者难以对统计结果有一个精准的把握。

13 “统计显著性是所研究现象的属性,因此统计检验发现显著性。”

待检验的效应要么存在要么不存在。“统计显著性”是对 P 值 (在所选取临界值之下部分) 的二分法描述,因此是统计检验结果的性质,而不是被研究总体或者被研究效应的性质。

14 “研究应在任何情况都使用双边检验的 P 值。”

当具有科学或实践意义的待验假设是一个单边假设时,使用单边 P 值更为恰当。不过考虑到双边假设通常被看作是默认选择,作者建议研究人员在使用单边 P 值进行特别强调并说明原因。

3.2 P值比较和预测中常见误区

15 “当同一假设在不同研究得到检验,没有或只有少数检验得到统计显著结果 (所有的 P 值均大于 0.05),则这些研究作为一个整体支持了相关假设。”

实际上,任何单独研究都可能无法检测出统计显著性,但将这些研究合并时就可能得到统计意义上显著的关联,进而为某个效应提供有说服力的证据。

从医学的角度来说,每项研究具有自身的独特性:

  1. Thoma 等 (1996) 指出,进入临床试验患者的异质性是值得引起注意的,应进行专门研究,且永远不能得出平均结果适用于所有未来患者的结论。此外,任何疾病不同阶段的患者对相同治疗方法可能会有不同的反应。
  2. Maheshwari 等 (2007) 利用元分析表明短期使用口服避孕药 (OC)(<5年) 与肝癌 (HCC) 风险之间没有显著相关性。涉及的大多数个体研究(12项中的 11 项)没有显示任何 OC 的使用与 HCC 之间存在显著的关联。所有研究经过年龄和性别调整后的 OR 值 (流行病学指标) 的合并估计并没有表明任何 OC 的使用与 HCC 之间存在显著的关联。然而,由于参与人数少和偏误来源多,因此无法就这一问题得出明确结论。

16 “当同一假设在两个不同总体中得到检验,且得到的 P 值位于数值 0.05 的两侧,则其结果是冲突的。”

17 “当同一假设在两个不同总体中得到检验,且得到相同 P 值,则其结果是一致的。”

对于以上两种提法 (16 和 17 ),作者指出统计检验会受到很多研究群体间差异的影响,而这些差异与他们结果是否一致并没有关联。

18 “当某项研究观测到了较小 P 值,则在其之后针对同一假设的另一研究观察到的P值有很大可能不会超过该数值。”

即使在理想条件,即研究相互独立,研究各自所有假设 (包括待验假设) 都是正确的情况下这种观点也是错误的。在这种情况下,如果一项研究得出 P=0.03,那么新研究得出 P≤0.03 的可能性仅有 3%;因此新研究得到的结果不大于原结果的可能性恰好是已观测到的 P 值。同时,一般来说,新研究的P值大小会在很大程度受到研究规模以及待验假设和其他假设是否被违背的影响。

3.3 置信区间涉及的常见误区

19 “研究得到的某一特定 95%置信区间包含真实影响程度的可能性为 95%.”

如果真实值在区间中,那么所观测区间 (如 0.72–2.88) 包含真实效应的发生率就是 100%,否则就为 0%;95% 仅仅表示当所有用来计算区间的假设正确的情况下,依据多项研究得出的 95% 置信区间包含真实大小的发生率是 95%。

20 “在 95% 置信区间外的其他效应量被数据所否认 (或排除)。”

如果要断言,区间外的一个效应量在某程度上和观测值不符,首先要数据、假设和任意 95% 标准的支持。即便这样,断言某个数值被数据所否认或排除也还需要更严格的条件。

21 “如果两个置信区间重叠,则其各自对应的估计结果或者研究结果之间的差异应不显著。”

作者提出了以下反例:两者呈正态分布,方差已知的样本平均值的 95% 置信区间分别是 (1.04, 4.96) 和 (4.16, 19.84),两个区间重合,但无差异假设的检验对应 P 值为 0.03。

22 “已观测到的某一 95% 置信区间预示了未来研究所得估计结果中,有 95% 都落在所观测区间内部。”

事实上,即便在理想条件下,未来的估计值落在现有区间内的机率通常是比 95% 小的。

23 “如果某一 95% 置信区间包含原假设中的数值,而得到的另一置信区间排除该值,那么后者的结果更为准确。”

如果模型正确,统计估计的精确性由置信区间宽度 (在恰当的范围) 直接测度。

3.4 统计功效涉及的常见误区

24 “如果由于所得 P 值超过 0.05 且所得统计功效为 90 %而接受原假设,则犯错(所发现结果为假阳性)的可能性为 10%.”

当用来计算功效的备择假设正确,且各研究中用于检验的所有其他假设都是正确的情况下,10% 仅表明在不同研究的多次检验中出错的频率,而无法对单独的一次检验进行说明,或说这个数值无法说明除了用来计算功效的效应量外的任何效应量的犯错率。

25 “如果基于原假设所得的 P 值超过 0.05,同时备择假设的统计功效为 90%,则结果相比于备择假设更支持原假设。”

反例:存在研究结果满足零假设 P 值在 0.05 到 0.10 之间,同时也存在 P 值超过 0.10 且功效为 0.90 的备择假设。但是相比于备择假设,随后的研究对原假设提出了更多反对证据。对作者的这一主张,详情可参考 Greenland(2012).

注:原文 effect size 在此译作“效应量”,该指标可能有多种计算方法,详见: 一组显著、一组不显著:二者有差异吗? (微信版)。

其他参考文献

  • Greenland, S. (2012). Nonsignificance plus high power does not imply support for the null over the alternative. Annals of Epidemiology, 22, 364–368. -PDF-
  • Thomas, C., Chalmers, Joseph, & Lau. (1996). Changes in clinical trials mandated by the advent of meta-analysis. Statistics in Medicine. -PDF-
  • Maheshwari, S. , Sarraj, A. , Kramer, J. , & El-Serag, H. B. . (2007). Oral contraception and the risk of hepatocellular carcinoma. Journal of Hepatology, 47(4), 506-513. -PDF-

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD