Stata:正确理解置信区间

发布时间:2022-10-17 阅读 1112

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:劳伟健 (西南财经大学)
邮箱lwj0909@smail.swufe.edu.cn

编者按:本文部分参考自下文,特此致谢!
Source:Bevans, R. (July 9, 2022). Understanding Confidence Intervals | Easy Examples & Formulas. Scribbr. Retrieved October 5, 2022. -Link-


目录


1. 何谓置信区间

无论是描述性统计还是检验统计量,都是基于总体的样本进行估计的,因此存在不确定性。置信区间是指以同样的方式重新对总体抽样时,期望的估计出现在一定范围内的概率。

在统计学中,置信度是描述概率的另一种方式。例如,构建一个具有 95% 置信水平的置信区间,那么 100 次的估计值中将有 95 次落在置信区间。其中,95% 为置信度,或置信水平、置信系数,一般用 CI 表示。如果我们使用 p<0.05 的 α 来表示统计显著性,那么置信度将是 1-0.05=0.95,即 95%。

我们在很多场景下都会使用置信区间,包括:

  • 比例
  • 总体平均值
  • 总体平均值和比例之间的区别
  • 组间差异

以上均为点估计,并没有给出任何关于变量数据变化的相关信息,因此置信区间对于理解点估计值附近的变化是有用的。例如,我们分别调查了 100 名英国人和美国人看电视的习惯,发现两组人平均每周看 35 小时电视。然而,被调查的英国人看电视的时间存在很大差异,而美国人看电视的时间都差不多。尽管两组人的点估计值 (平均观看时长) 相同,但英国人的估计值比美国人的估计值有更大的置信区间。

如下图所示,蓝色代表美国人看电视时间的分布情况,绿色为英国人。两份数据均服从正态分布,并且都具有相同的均值 35 小时 (虚线),但是蓝色分布更加集中,而绿色更加分散,说明英国人看电视的时间存在更大的差异性,而美国人看电视的时间更为集中。

2. 计算置信区间

如果要计算置信区间,我们需要知道以下 4 个值:

点估计值:置信区间的点估计是任何统计量的估计(总体均值,总体均值之间的差异,比例,组间差异等)。在以上看电视的例子中,点估计是看电视的平均小时数 35 小时。

点估计的临界值:首先,选择一个 α 值。最常见的 α 值是 p=0.05。然后,决定单尾置信区间还是双尾置信区间。最后,查找与 α 值对应的临界值。如果数据服从正态分布,或者大样本近似服从正态分布,则可以使用 z 分布来查找临界值。如果数据是近似正态分布的小数据集 (n  30),则使用 t 分布代替。对于 z 统计量,一些最常见的值如下表所示:

置信区间 90% 95% 99%
单尾 CI 的 α 0.1 0.05 0.01
双尾 CI 的 α 0.05 0.025 0.005
z 统计量 1.64 1.96 2.57

在看电视的调查中,有 30 多个观察结果,数据遵循近似正态分布 (钟形曲线),因此我们可以使用 z 分布。对于双尾 95% 置信区间,α 值为 0.025,对应的临界值为 1.96。这意味着,要计算置信区间的上下限,我们可以取均值 ±1.96 个标准差。

样本标准差:样本方差定义为均值差的平方和,也称为均方误差 (MSE)。估计的标准差 (s) 等于样本方差/样本误差 (s2) 的平方根。在看电视的调查中,英国估计的方差为 100,而美国估计的方差为 25。取方差的平方根得到样本标准差 (s),英国为 10,美国为 5。

样本量:在对美国人和英国人的调查中,每组的样本量为 100 人。

2.1 正态分布均值的置信区间

正态分布数据呈钟形,样本均值在中间,其余数据均匀地分布在均值两侧。符合标准正态分布的数据的置信区间为:

其中,CI 为置信区间,X¯ 为总体均值,Z 为 Z 分布的临界值,σ 为总体标准差,n 为总体规模的平方根。t 分布的置信区间遵循相同的公式。在现实生活中,我们永远不知道人口的真实值 (除非能做一次完整的人口普查)。因此,我们用样本数据中的值替换总体值,此时上式变为:

其中,x^ 是样本均值,s 是样本标准差。

在对美国人和英国人看电视习惯的调查中,我们可以用样本均值、样本标准差和样本量来代替总体均值、总体标准差和人口规模。为了计算 95% 置信区间,我们可以将值代入公式。

  • 美国:CI=35±1.965100=35±0.98,对于美国来说,95% 置信区间的下限和上限分别为 34.02 和 35.98;
  • 英国:CI=35±1.9610100=35±1.96,对于英国来说,95% 置信区间的下限和上限分别为 33.04 和 36.96。

2.2 比例的置信区间

比例的置信区间与均值的置信区间遵循相同的模式,但需使用样本比例乘 1 减去样本比例的标准差:

其中,p^ 为样本中的比例 (如看电视人群所占的比重),Z 为 z分布的临界值,n 为样本量。

2.3 非正态分布数据的置信区间

要计算非正态分布数据均值的置信区间,有两种选择: 一是找到与数据形状匹配的分布,并使用该分布计算置信区间。二是对数据进行转换,使其符合正态分布,然后找到转换后数据的置信区间。

数据转换在统计学中非常常见,例如,当数据遵循对数曲线,但我们希望将其与线性数据一起使用时,只需要在计算置信区间的上界和下界时对数据进行反向变换。

3. 汇报置信区间

论文中有时会汇报置信区间,但研究人员更经常汇报他们估计的标准差。如果我们被要求汇报置信区间,应该包括置信区间的上下限。例如,我们发现美国和英国平均每周看电视为 35 小时,但是英国的估计差异 (95% CI=[33.04, 36.96]) 比美国(95% CI=[34.02, 35.98]) 更大。

在显示组间差异或绘制线性回归图时,研究人员通常会包括置信区间,以可视化估计值周围变化。

4. Stata实例

4.1 计算置信区间

首先,导入数据并显示数据基本格式。

. sysuse auto, clear
. des 

 Observations:            74            1978 automobile data
    Variables:            12            13 Apr 2020 17:45
                                        (_dta has notes)
-------------------------------------------------------------
Variable    Storage   Display    Value
    name       type    format    label  Variable label
-------------------------------------------------------------
make          str18   %-18s             Make and model
price         int     %8.0gc            Price
mpg           int     %8.0g             Mileage (mpg)
rep78         int     %8.0g             Repair record 1978
headroom      float   %6.1f             Headroom (in.)
trunk         int     %8.0g             Trunk space (cu. ft.)
weight        int     %8.0gc            Weight (lbs.)
length        int     %8.0g             Length (in.)
turn          int     %8.0g             Turn circle (ft.)
displacement  int     %8.0g             Displacement (cu. in.)
gear_ratio    float   %6.2f             Gear ratio
foreign       byte    %8.0g    origin   Car origin
-------------------------------------------------------------
Sorted by: foreign

然后,分别以变量 priceforeign 为例,计算它们各自均值在 95% 置信水平的置信区间。其中,前者为连续变量,后者为分类变量。

. ci means price, level(95)

    Variable |   Obs      Mean   Std. err.    [95% conf. interval]
-------------+------------------------------------------------------
       price |    74  6165.257   342.8719     5481.914      6848.6

. ci proportions foreign
                                                    Binomial exact   
    Variable |   Obs  Proportion   Std. err.   [95% conf. interval]
-------------+------------------------------------------------------
     foreign |    74    .2972973   .0531331    .196584    .4148353

最后,我们以 price 为因变量,以 weightlengthforeign 为自变量,演示获取回归系数在 95% 置信水平的置信区间。

. reg price weight length foreign, level(95)

      Source |       SS           df       MS      Number of obs   =        74
-------------+----------------------------------   F(3, 70)        =     28.39
       Model |   348565467         3   116188489   Prob > F        =    0.0000
    Residual |   286499930        70  4092856.14   R-squared       =    0.5489
-------------+----------------------------------   Adj R-squared   =    0.5295
       Total |   635065396        73  8699525.97   Root MSE        =    2023.1
------------------------------------------------------------------------------
       price | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
      weight |      5.775      0.959     6.02   0.000        3.861       7.688
      length |    -91.371     32.828    -2.78   0.007     -156.845     -25.897
     foreign |   3573.092    639.328     5.59   0.000     2297.992    4848.191
       _cons |   4838.021   3742.010     1.29   0.200    -2625.183   12301.224
------------------------------------------------------------------------------

4.2 画置信区间

首先,在上述模型基础上加入尽可能多的控制变量,通过回归发现,weightforeign 均在 95$% 显著性水平上显著,而其他变量不显著。

. reg price weight length foreign rep78 headroom trunk turn displacement gear_ratio 

      Source |       SS           df       MS      Number of obs   =        69
-------------+----------------------------------   F(9, 59)        =      9.76
       Model |   345099215         9  38344357.2   Prob > F        =    0.0000
    Residual |   231697744        59  3927080.41   R-squared       =    0.5983
-------------+----------------------------------   Adj R-squared   =    0.5370
       Total |   576796959        68  8482308.22   Root MSE        =    1981.7
------------------------------------------------------------------------------
       price | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
      weight |      4.588      1.381     3.32   0.002        1.826       7.351
      length |    -74.399     39.404    -1.89   0.064     -153.246       4.449
     foreign |   3427.889    891.474     3.85   0.000     1644.052    5211.725
       rep78 |    159.006    316.432     0.50   0.617     -474.172     792.185
    headroom |   -636.864    379.994    -1.68   0.099    -1397.229     123.502
       trunk |     72.736     94.205     0.77   0.443     -115.768     261.240
        turn |   -110.877    121.984    -0.91   0.367     -354.966     133.212
displacement |     11.303      8.271     1.37   0.177       -5.247      27.852
  gear_ratio |   -391.968   1085.269    -0.36   0.719    -2563.586    1779.651
       _cons |   8905.397   5885.535     1.51   0.136    -2871.531   20682.325
------------------------------------------------------------------------------

然后,画出各变量的估计值及 95% 置信区间。

. coefplot, yti("变量") xti("系数估计值 + 95% 置信区间") xline(0)

5. 总结

置信区间有时被解释为估算的 “真实值” 位于置信区间范围内。事实并非如此。置信区间不能告诉我们找到真实值的可能性有多大,因为它是基于样本的估计,而不是总体。置信区间只告诉我们如果重新进行抽样或以完全相同的方式再次进行实验时,可能会发现的值的范围。

如果抽样方式越准确,或者实验越真实,置信区间包含估计值真实值的可能性就越大。但是这种准确性是由研究方法决定的,而不是由收集数据后所做的统计数据决定的!

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 统计 置信区间, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh