Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:曹琳君 (南开大学)
邮箱:linjuncao@yeah.net
编者按:本文主要摘译自下文,特此致谢!
Source:King G, Tomz M, Wittenberg J. Making the most of statistical analyses: Improving interpretation and presentation[J]. American journal of political science, 2000: 347-361. -PDF-
目录
如何优雅精确的表述实证分析结果,几乎是所有青年学者在进行实证分析时所面临的重要问题。如果学者们不能充分地解读数据结果,就可能会遗漏重要问题。针对这种现象,King 等 (2000) 分析了统计解释中常见的问题,并给出了解决方法和开发了 CLARIFY 程序供研究者模拟使用。本文主要是对这篇论文核心理论内容进行介绍。
文章目的是解释一类非常普遍的统计模型的原始结果,可以用两个方程式总结:
第一个方程描述了统计模型的随机成分:生成因变量的概率密度函数
第二个方程给出了模型的系统组成部分。该部分表明了
这个类的一个成员是线性正态回归模型,也称为最小二乘回归。具体而言:
类似地,我们可以通过将随机分量表示为带有主参数的伯努利分布来写一个 Logit 模型
King 等 (2000) 认为在估计了统计模型之后,许多研究人员在粗略地看了效应参数的标志和 “统计显著性” 后就停止了研究。这种方法显然不能满足我们有意义的统计交流标准,因为对于许多非线性模型而言,
一些研究人员更进一步,计算了导数、拟合值和一阶差值 (Long,1997;King,1989),它确实传达了对有趣数量的精确估计,且不需要什么专业知识就能理解。然而,即使这些方法也不够充分,因为它们忽略了两种形式的不确定性:估计的不确定性 (来自未知的
研究人员经常通过报告标准误差或
第二种不确定性通常是由无数可能影响
King 等 (2000) 推荐将统计模拟作为计算 quantities of interest 和不确定性的方法。我们建议将统计模拟作为计算感兴趣数量及其不确定性的简单方法。模拟还可以帮助研究人员了解整个统计模型,充分利用参数估计,并以读者友好的方式传达研究结果 (Fair,1980;Tanner,1996;Stern,1997)。
统计模拟使用调查抽样的逻辑来估算复杂的数学计算。在调查研究中,我们通过从人群中随机抽取样本来了解人群。模拟遵循类似的逻辑,但告诉我们概率分布而不是总体。我们通过模拟 (绘制随机数) 来了解分布,并使用绘制来近似分布的某些特征。随着绘制次数 M 的增加,近似值变得更加精确。因此,模拟使我们能够在不借助高等数学的情况下估算概率分布的任何特征。
例如,我们可以通过积分
此外,可以通过增加模拟次数 (M) 来计算任意期望的精度,这类似于增加调查抽样中的观测次数。评估这种近似的精度很简单:重复运行相同的程序,进行相同数量的模拟。如果在重复的过程中答案在四个小数点内保持不变,这就是近似的精确程度。如果需要更高的精度,可以增加模拟的次数,然后再试一次。模拟不会损失任何东西——除了一点计算机时间——而且在使用上获得了很多便利。
我们现在解释研究人员如何使用模拟来计算感兴趣的数量和解释不确定性。第一步是模拟主要参数和辅助参数。为了模拟参数,我们需要点估计和估计的方差-协方差矩阵,大多数统计软件都可以实现。基于中心极限定理,在样本足够大且方差有界的情况下,我们可以从均值为的多元正态分布中随机抽取(模拟)参数,如公式 (4) 所示:
因此,我们可以通过以下步骤得到
重复第二步,假设 M = 1000 次,得到 1000 次抽样的主参数和辅助参数。如果我们可以完全了解
根据每个解释变量的被抽样值,我们可以得到一个
重复此算法,例如 M=1000 次,以产生 1000 个预测值,从而近似于
根据所研究的问题,因变量的期望值或平均值可能比预测值更有趣。两者之间的区别是微妙但重要的。预测值既包含基本的不确定性,也包含估计的不确定性,而期望值则平均化了由于世界上纯粹的随机性而产生的基本可变性,只剩下由于没有无限多的观测值而导致的估计不确定性。因此,即使在平均值几乎相同的情况下,预测值的方差比期望值大。
因此,在进行数据选择时,研究人员应该考虑基本不确定性对于他们得出的结论的重要性。在某些应用中,例如关于选举或汇率的预测,学者、政治家以及投资者不仅想知道预期结果,还想知道由于未建模的随机因素,结果可能偏离预期的程度。这种情况下预测值更加合适。对于其他应用,研究人员可能希望强调特定解释变量的平均效应,因此期望值将是最佳选择。
模拟期望值的步骤如下:
首次差分是两个期望值 (而非预测值) 之间的差异。为了模拟首次差分,研究人员只需使用解释变量的不同设置,运行预期值算法的步骤 2-5 两次。例如,要模拟第一个解释变量的首次差分,需要将除第一个解释变量外的所有解释变量的值设置为其平均值,并将第一个变量固定在其起点。将解释变量的起始值向量表示为
重复第一个差分算法,例如重复 1000 次,就可以得到近似第一个差分的分布。平均模拟值可以以获得点估计值,计算标准偏差可以以获得标准误差,对值进行排序可以获得近似的置信区间。
在本节中,我们将讨论生成感兴趣的量和测量其不确定度的其他几种技术。这些方法可以作为模拟的有价值的补充,因为它们提供了重要的数学直觉。
上文中提供的方法并不是获得模拟数据的唯一方法,使用马尔可夫链蒙特卡罗技术的完全贝叶斯方法也可以获得模拟数据,且该方法可以允许研究人员从精确的有限样本分布中提取,而不是依赖中心极限定理来证明渐近正态近似 (Carlin 和 Louis,1996)。然而,这些方法仍然难以在实际中使用,主要是因为统计学家对于确定马尔可夫链何时在分布上收敛到真实后验概率的适当标准仍然存在分歧。
另一个有用的替代方法是 Bootstrapping,这是一种非参数方法,依赖于抽样逻辑来近似参数分布。从理论上讲,
Bootstrapping 方法通过从原始样本中抽取许多子样本 (替换),估计每个子样本的
对于贝叶斯方法和 Bootstrapping,我们在本文中讨论的所有解释方法都可以直接使用。唯一的变化是,我们将使用基于 MCMC 的模拟或自举,而不是从方程4中的多元正态分布中提取参数。King 等 (2000) 提供的软件包 CLARIFY 不需要额外的编程并且可以很容易地进行修改,以解释这些替代方法生成的参数。
模拟的主要分析 (数学) 替代方法是 delta 方法,该方法使用微积分工具来获得近似随机变量的非线性函数 (van 等,1998)。具体而言,假设
尽管 delta 方法在提高计算速度和通过数学分析揭示统计直觉方面很有用,但它存在两个缺点,仿真可以帮助克服这两个缺点。首先,该方法在技术上要求很高,因为它需要研究人员计算导数和线性化函数的矩。因此,大多数学者不使用 delta 方法也就不足为奇了,即使他们意识到报告不确定性的重要性。其次,delta 方法中使用的 Taylor 级数仅近似于非线性形式。尽管研究人员有时可以在 Taylor 序列中使用额外的项来改进近似值,但这可能很困难,而且通常不可能找到额外项的估计值。在实践中,大多数研究人员在将序列扩展到一阶或二阶后停止,这可能会影响近似的准确性。通过模拟,只需增加 M 并让计算机运行更长时间,就可以达到任意高的精度。
统计程序通常报告参数估计的标准误差,但精确模拟需要完整的方差矩阵
在模拟参数的过程中,一个常见的错误是从多元正态分布中提取时排除了一些参数。参数具有不同的逻辑状态,例如效应参数
在一些统计模型中,
研究人员应重新参数化
将模拟参数转换为感兴趣的量时,最安全的做法是模拟
此外,研究人员应该通过重复整个算法来评估任何模拟量的精度,并看看是否有任何实质性的重要内容发生了变化。如果确实发生了变化,则增加模拟次数并再试一次。在某些情况下,特别是当研究人员错误地指定了一个非线性统计模型时,精确地估计一个期望值所需的模拟次数可能比正常情况下要多。数值估计应该报正确的精度水平,例如,如果重复运行相同数量的模拟产生的估算值仅在小数点后第四位发生变化,则报告的数字应四舍五入至小数点后两或三位。
King 等 (2000) 指出不确定性是学者们在进行数据分析时常遇到的问题,主要包括估计的不确定性 (来自未知的
Note:产生如下推文列表的 Stata 命令为:
lianxh 模拟, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh