Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:劳伟健 (西南财经大学)
邮箱:lwj0909@smail.swufe.edu.cn
编者按:本文部分参考自下文,特此致谢!
Source:Bevans, R. (July 9, 2022). Understanding Confidence Intervals | Easy Examples & Formulas. Scribbr. Retrieved October 5, 2022. -Link-
目录
无论是描述性统计还是检验统计量,都是基于总体的样本进行估计的,因此存在不确定性。置信区间是指以同样的方式重新对总体抽样时,期望的估计出现在一定范围内的概率。
在统计学中,置信度是描述概率的另一种方式。例如,构建一个具有 95% 置信水平的置信区间,那么 100 次的估计值中将有 95 次落在置信区间。其中,95% 为置信度,或置信水平、置信系数,一般用 CI 表示。如果我们使用
我们在很多场景下都会使用置信区间,包括:
以上均为点估计,并没有给出任何关于变量数据变化的相关信息,因此置信区间对于理解点估计值附近的变化是有用的。例如,我们分别调查了 100 名英国人和美国人看电视的习惯,发现两组人平均每周看 35 小时电视。然而,被调查的英国人看电视的时间存在很大差异,而美国人看电视的时间都差不多。尽管两组人的点估计值 (平均观看时长) 相同,但英国人的估计值比美国人的估计值有更大的置信区间。
如下图所示,蓝色代表美国人看电视时间的分布情况,绿色为英国人。两份数据均服从正态分布,并且都具有相同的均值 35 小时 (虚线),但是蓝色分布更加集中,而绿色更加分散,说明英国人看电视的时间存在更大的差异性,而美国人看电视的时间更为集中。
如果要计算置信区间,我们需要知道以下 4 个值:
点估计值:置信区间的点估计是任何统计量的估计(总体均值,总体均值之间的差异,比例,组间差异等)。在以上看电视的例子中,点估计是看电视的平均小时数 35 小时。
点估计的临界值:首先,选择一个
置信区间 | 90% | 95% | 99% |
---|---|---|---|
单尾 CI 的 |
0.1 | 0.05 | 0.01 |
双尾 CI 的 |
0.05 | 0.025 | 0.005 |
1.64 | 1.96 | 2.57 |
在看电视的调查中,有 30 多个观察结果,数据遵循近似正态分布 (钟形曲线),因此我们可以使用
样本标准差:样本方差定义为均值差的平方和,也称为均方误差 (MSE)。估计的标准差 (s) 等于样本方差/样本误差 (
样本量:在对美国人和英国人的调查中,每组的样本量为 100 人。
正态分布数据呈钟形,样本均值在中间,其余数据均匀地分布在均值两侧。符合标准正态分布的数据的置信区间为:
其中,CI 为置信区间,
其中,
在对美国人和英国人看电视习惯的调查中,我们可以用样本均值、样本标准差和样本量来代替总体均值、总体标准差和人口规模。为了计算 95% 置信区间,我们可以将值代入公式。
比例的置信区间与均值的置信区间遵循相同的模式,但需使用样本比例乘 1 减去样本比例的标准差:
其中,
要计算非正态分布数据均值的置信区间,有两种选择: 一是找到与数据形状匹配的分布,并使用该分布计算置信区间。二是对数据进行转换,使其符合正态分布,然后找到转换后数据的置信区间。
数据转换在统计学中非常常见,例如,当数据遵循对数曲线,但我们希望将其与线性数据一起使用时,只需要在计算置信区间的上界和下界时对数据进行反向变换。
论文中有时会汇报置信区间,但研究人员更经常汇报他们估计的标准差。如果我们被要求汇报置信区间,应该包括置信区间的上下限。例如,我们发现美国和英国平均每周看电视为 35 小时,但是英国的估计差异 (95% CI=[33.04, 36.96]) 比美国(95% CI=[34.02, 35.98]) 更大。
在显示组间差异或绘制线性回归图时,研究人员通常会包括置信区间,以可视化估计值周围变化。
首先,导入数据并显示数据基本格式。
. sysuse auto, clear
. des
Observations: 74 1978 automobile data
Variables: 12 13 Apr 2020 17:45
(_dta has notes)
-------------------------------------------------------------
Variable Storage Display Value
name type format label Variable label
-------------------------------------------------------------
make str18 %-18s Make and model
price int %8.0gc Price
mpg int %8.0g Mileage (mpg)
rep78 int %8.0g Repair record 1978
headroom float %6.1f Headroom (in.)
trunk int %8.0g Trunk space (cu. ft.)
weight int %8.0gc Weight (lbs.)
length int %8.0g Length (in.)
turn int %8.0g Turn circle (ft.)
displacement int %8.0g Displacement (cu. in.)
gear_ratio float %6.2f Gear ratio
foreign byte %8.0g origin Car origin
-------------------------------------------------------------
Sorted by: foreign
然后,分别以变量 price 和 foreign 为例,计算它们各自均值在 95% 置信水平的置信区间。其中,前者为连续变量,后者为分类变量。
. ci means price, level(95)
Variable | Obs Mean Std. err. [95% conf. interval]
-------------+------------------------------------------------------
price | 74 6165.257 342.8719 5481.914 6848.6
. ci proportions foreign
Binomial exact
Variable | Obs Proportion Std. err. [95% conf. interval]
-------------+------------------------------------------------------
foreign | 74 .2972973 .0531331 .196584 .4148353
最后,我们以 price 为因变量,以 weight,length 和 foreign 为自变量,演示获取回归系数在 95% 置信水平的置信区间。
. reg price weight length foreign, level(95)
Source | SS df MS Number of obs = 74
-------------+---------------------------------- F(3, 70) = 28.39
Model | 348565467 3 116188489 Prob > F = 0.0000
Residual | 286499930 70 4092856.14 R-squared = 0.5489
-------------+---------------------------------- Adj R-squared = 0.5295
Total | 635065396 73 8699525.97 Root MSE = 2023.1
------------------------------------------------------------------------------
price | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
weight | 5.775 0.959 6.02 0.000 3.861 7.688
length | -91.371 32.828 -2.78 0.007 -156.845 -25.897
foreign | 3573.092 639.328 5.59 0.000 2297.992 4848.191
_cons | 4838.021 3742.010 1.29 0.200 -2625.183 12301.224
------------------------------------------------------------------------------
首先,在上述模型基础上加入尽可能多的控制变量,通过回归发现,weight 和 foreign 均在 95$% 显著性水平上显著,而其他变量不显著。
. reg price weight length foreign rep78 headroom trunk turn displacement gear_ratio
Source | SS df MS Number of obs = 69
-------------+---------------------------------- F(9, 59) = 9.76
Model | 345099215 9 38344357.2 Prob > F = 0.0000
Residual | 231697744 59 3927080.41 R-squared = 0.5983
-------------+---------------------------------- Adj R-squared = 0.5370
Total | 576796959 68 8482308.22 Root MSE = 1981.7
------------------------------------------------------------------------------
price | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
weight | 4.588 1.381 3.32 0.002 1.826 7.351
length | -74.399 39.404 -1.89 0.064 -153.246 4.449
foreign | 3427.889 891.474 3.85 0.000 1644.052 5211.725
rep78 | 159.006 316.432 0.50 0.617 -474.172 792.185
headroom | -636.864 379.994 -1.68 0.099 -1397.229 123.502
trunk | 72.736 94.205 0.77 0.443 -115.768 261.240
turn | -110.877 121.984 -0.91 0.367 -354.966 133.212
displacement | 11.303 8.271 1.37 0.177 -5.247 27.852
gear_ratio | -391.968 1085.269 -0.36 0.719 -2563.586 1779.651
_cons | 8905.397 5885.535 1.51 0.136 -2871.531 20682.325
------------------------------------------------------------------------------
然后,画出各变量的估计值及 95% 置信区间。
. coefplot, yti("变量") xti("系数估计值 + 95% 置信区间") xline(0)
置信区间有时被解释为估算的 “真实值” 位于置信区间范围内。事实并非如此。置信区间不能告诉我们找到真实值的可能性有多大,因为它是基于样本的估计,而不是总体。置信区间只告诉我们如果重新进行抽样或以完全相同的方式再次进行实验时,可能会发现的值的范围。
如果抽样方式越准确,或者实验越真实,置信区间包含估计值真实值的可能性就越大。但是这种准确性是由研究方法决定的,而不是由收集数据后所做的统计数据决定的!
Note:产生如下推文列表的 Stata 命令为:
lianxh 统计 置信区间, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh