如何解释和展示你的实证结果(上)

发布时间:2021-09-26 阅读 349

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:曹琳君 (南开大学)
邮箱linjuncao@yeah.net

编者按:本文主要摘译自下文,特此致谢!
Source:King G, Tomz M, Wittenberg J. Making the most of statistical analyses: Improving interpretation and presentation[J]. American journal of political science, 2000: 347-361. -PDF-


目录


1. 引言

如何优雅精确的表述实证分析结果,几乎是所有青年学者在进行实证分析时所面临的重要问题。如果学者们不能充分地解读数据结果,就可能会遗漏重要问题。针对这种现象,King 等 (2000) 分析了统计解释中常见的问题,并给出了解决方法和开发了 CLARIFY 程序供研究者模拟使用。本文主要是对这篇论文核心理论内容进行介绍。

2. 统计解释的问题

文章目的是解释一类非常普遍的统计模型的原始结果,可以用两个方程式总结:

第一个方程描述了统计模型的随机成分:生成因变量的概率密度函数 Yi(i=1,...,n) 来自概率密度 f(θi,α) 的随机抽取。此函数的某些特征随观测值的变化而变化,而其他特征在所有 i 中保持不变。本文用参数向量 θi 表示变化特征,并将非参数化特征降为辅助参数矩阵 α

第二个方程给出了模型的系统组成部分。该部分表明了 θi 如何在观测值中变化。θi 的变化取决于解释变量 1×k 向量 Xi 和 k×1 向量 β 的效应参数。函数形式 g(,) 有时称为链接函数,指定如何将解释变量和效果参数转换为 θi

这个类的一个成员是线性正态回归模型,也称为最小二乘回归。具体而言:g(,) 服从正态分布;将主参数向量设置为标量平均值 θi=E(Yi)=μi,并假设辅助参数矩阵是标量同调方差 α=V(Yi)=σ2;将系统分量设为线性形式 g(Xi,β)=Xiβ=β0+Xi1β1+Xi2β2+

类似地,我们可以通过将随机分量表示为带有主参数的伯努利分布来写一个 Logit 模型 πi=Pr(Yi=1)

King 等 (2000) 认为在估计了统计模型之后,许多研究人员在粗略地看了效应参数的标志和 “统计显著性” 后就停止了研究。这种方法显然不能满足我们有意义的统计交流标准,因为对于许多非线性模型而言,β^ 和 α^ 是难以解释的并且仅与研究的问题间接相关 (Cain 和 Watts,1970;Blalock,1967)。

一些研究人员更进一步,计算了导数、拟合值和一阶差值 (Long,1997;King,1989),它确实传达了对有趣数量的精确估计,且不需要什么专业知识就能理解。然而,即使这些方法也不够充分,因为它们忽略了两种形式的不确定性:估计的不确定性 (来自未知的 β 和 α) 和基本不确定性 (来自偶然因素的不确定性)。

研究人员经常通过报告标准误差或 t 统计来承认第一种不确定性,但他们在计算感兴趣的数量时忽略了这一点。由于β^ 和 α^ 是不确定的,基于这些参数估计的任何计算——包括导数、拟合值和一阶差分——都是不确定的,但几乎没有学者考虑到这一事实。

第二种不确定性通常是由无数可能影响 Y 但不包括在 X 中的偶然事件(如天气或疾病) 造成的。即使我们知道参数的准确值 (从而消除了估计的不确定性),基本不确定性也会使我们无法准确地预测 Y。我们计算感兴趣数量的方法必须考虑这两种不确定性。

3. 基于模拟的解释方法

King 等 (2000) 推荐将统计模拟作为计算 quantities of interest 和不确定性的方法。我们建议将统计模拟作为计算感兴趣数量及其不确定性的简单方法。模拟还可以帮助研究人员了解整个统计模型,充分利用参数估计,并以读者友好的方式传达研究结果 (Fair,1980;Tanner,1996;Stern,1997)。

3.1 统计模拟

统计模拟使用调查抽样的逻辑来估算复杂的数学计算。在调查研究中,我们通过从人群中随机抽取样本来了解人群。模拟遵循类似的逻辑,但告诉我们概率分布而不是总体。我们通过模拟 (绘制随机数) 来了解分布,并使用绘制来近似分布的某些特征。随着绘制次数 M 的增加,近似值变得更加精确。因此,模拟使我们能够在不借助高等数学的情况下估算概率分布的任何特征。

例如,我们可以通过积分 E(y)=yP(y)dy 来计算一个概率分布 P(y) 的平均值。或者,我们可以通过从 P(y) 中抽取大量随机数进行模拟来估算均值。如果对 Y 的理论方差感兴趣,我们可以计算大量随机抽取的样本方差,如果想要 Y>=0.8 的概率,我们可以计算超过 0.8 的抽取比例。

此外,可以通过增加模拟次数 (M) 来计算任意期望的精度,这类似于增加调查抽样中的观测次数。评估这种近似的精度很简单:重复运行相同的程序,进行相同数量的模拟。如果在重复的过程中答案在四个小数点内保持不变,这就是近似的精确程度。如果需要更高的精度,可以增加模拟的次数,然后再试一次。模拟不会损失任何东西——除了一点计算机时间——而且在使用上获得了很多便利。

3.2 统计模拟的参数

我们现在解释研究人员如何使用模拟来计算感兴趣的数量和解释不确定性。第一步是模拟主要参数和辅助参数。为了模拟参数,我们需要点估计和估计的方差-协方差矩阵,大多数统计软件都可以实现。基于中心极限定理,在样本足够大且方差有界的情况下,我们可以从均值为的多元正态分布中随机抽取(模拟)参数,如公式 (4) 所示:

因此,我们可以通过以下步骤得到 γ 的一个模拟:

  1. 通过常用软件估计模型,并记录点估计值 γ^ 和方差矩阵 V^(γ^)
  2. 由公式 4 的多元正态分布得出向量 γ 的一个值,γ~= vec(β~,α~)

重复第二步,假设 M = 1000 次,得到 1000 次抽样的主参数和辅助参数。如果我们可以完全了解 V^(γ^) 的全部元素,所有抽样的结果将是一致的。我们关于 V^(γ^) 的信息了解越少,每次抽样结果的差异就越大。在接下来的三个小节中,我们将描述将模拟参数转换为预测值、期望值和第一个差值的算法。

4. 模拟参数的转换

4.1 预测值

根据每个解释变量的被抽样值,我们可以得到一个 y 值,用 Xc 表示。将模拟的 θ 表示为 θc,将相应的 Y 表示为 Yc 由于使用的 X 值的种类不同,预测值会有很多种,但这些都不等于线性回归中的期望值 (Y^)。模拟预测值的步骤如下:

  1. 利用上面小节的算法计算向量 γ~=vec(β~,α~)
  2. 确定你希望计算的预测值的类型,并在此基础上为每个解释变量选择一个值,用 Xc 表示;
  3. 从 γ~ 的前部分提取模拟系数并计算 θ~c=g(Xc,β~),其中 g(,) 是统计模型的系统组成部分;
  4. 通过从 f(θ~c,α~) 中抽取随机数来模拟结果变量 Y~c

重复此算法,例如 M=1000 次,以产生 1000 个预测值,从而近似于 Yc 的整个概率分布。通过这些模拟,研究人员不仅可以计算平均预测值,还可以计算平均值周围的不确定性。预测值将以与因变量相同的度量表示,因此它不需要什么专业知识来理解。

4.2 期望值

根据所研究的问题,因变量的期望值或平均值可能比预测值更有趣。两者之间的区别是微妙但重要的。预测值既包含基本的不确定性,也包含估计的不确定性,而期望值则平均化了由于世界上纯粹的随机性而产生的基本可变性,只剩下由于没有无限多的观测值而导致的估计不确定性。因此,即使在平均值几乎相同的情况下,预测值的方差比期望值大。

因此,在进行数据选择时,研究人员应该考虑基本不确定性对于他们得出的结论的重要性。在某些应用中,例如关于选举或汇率的预测,学者、政治家以及投资者不仅想知道预期结果,还想知道由于未建模的随机因素,结果可能偏离预期的程度。这种情况下预测值更加合适。对于其他应用,研究人员可能希望强调特定解释变量的平均效应,因此期望值将是最佳选择。

模拟期望值的步骤如下:

  1. 按照模拟参数的步骤,计算向量 γ~=vec(β,α~)
  2. 为每个解释变量选择一个值,并将值用向量表示为 Xc
  3. 从 γ~ 的前部分提取模拟系数并计算 θ~c=g(Xc,β~),其中 g(,) 是统计模型的系统组成部分;
  4. 从 f(θ~c,α~) 中计算结果变量 Y~c(k)(k=1...,m) 的 m 值;
  5. 通过计算 m 次模拟的平均值,得出一个模拟期望值,对基本不确定性进行平均:E~(Yc)=k=1mY~c(k)/m

4.3 首次差分

首次差分是两个期望值 (而非预测值) 之间的差异。为了模拟首次差分,研究人员只需使用解释变量的不同设置,运行预期值算法的步骤 2-5 两次。例如,要模拟第一个解释变量的首次差分,需要将除第一个解释变量外的所有解释变量的值设置为其平均值,并将第一个变量固定在其起点。将解释变量的起始值向量表示为 Xs 并生成期望 E~(Ys)。接下来,将第一个解释变量的值更改为其结束点,让其他变量保持不变。设置新的变量为 Xe,重复运算并得到 E~(Ye)。用 E~(Ye)E~(Ys) 就可以得到首次差分的值。

重复第一个差分算法,例如重复 1000 次,就可以得到近似第一个差分的分布。平均模拟值可以以获得点估计值,计算标准偏差可以以获得标准误差,对值进行排序可以获得近似的置信区间。

4.4 替代方法

在本节中,我们将讨论生成感兴趣的量和测量其不确定度的其他几种技术。这些方法可以作为模拟的有价值的补充,因为它们提供了重要的数学直觉。

4.4.1 计算机密集型替代方案

上文中提供的方法并不是获得模拟数据的唯一方法,使用马尔可夫链蒙特卡罗技术的完全贝叶斯方法也可以获得模拟数据,且该方法可以允许研究人员从精确的有限样本分布中提取,而不是依赖中心极限定理来证明渐近正态近似 (Carlin 和 Louis,1996)。然而,这些方法仍然难以在实际中使用,主要是因为统计学家对于确定马尔可夫链何时在分布上收敛到真实后验概率的适当标准仍然存在分歧。

另一个有用的替代方法是 Bootstrapping,这是一种非参数方法,依赖于抽样逻辑来近似参数分布。从理论上讲,γ^ 的抽样分布可以看作是无数个 γ^ 的直方图,且每一个都是从同一总体中的不同样本 (大小为 n) 中估算出来的。

Bootstrapping 方法通过从原始样本中抽取许多子样本 (替换),估计每个子样本的 γ^,然后构建各个子样本的直方图来模拟这一过程。Bootstrap 方法的优势是,不需要强分布假设且具有小样本分布特性。Bootstrapping 的缺点是它对某些量的估计是有偏的,例如 max(Y)

对于贝叶斯方法和 Bootstrapping,我们在本文中讨论的所有解释方法都可以直接使用。唯一的变化是,我们将使用基于 MCMC 的模拟或自举,而不是从方程4中的多元正态分布中提取参数。King 等 (2000) 提供的软件包 CLARIFY 不需要额外的编程并且可以很容易地进行修改,以解释这些替代方法生成的参数。

4.4.2 分析方法

模拟的主要分析 (数学) 替代方法是 delta 方法,该方法使用微积分工具来获得近似随机变量的非线性函数 (van 等,1998)。具体而言,假设 θ= g(Xc,β)g 是一个非线性函数,且 θg(β^)+g(β^)(ββ^)g(a)=g(a)/a。基于此,θ 的最大似然估计为 g(β^),其方差约为 g(β^)V(β^)g(β^)

尽管 delta 方法在提高计算速度和通过数学分析揭示统计直觉方面很有用,但它存在两个缺点,仿真可以帮助克服这两个缺点。首先,该方法在技术上要求很高,因为它需要研究人员计算导数和线性化函数的矩。因此,大多数学者不使用 delta 方法也就不足为奇了,即使他们意识到报告不确定性的重要性。其次,delta 方法中使用的 Taylor 级数仅近似于非线性形式。尽管研究人员有时可以在 Taylor 序列中使用额外的项来改进近似值,但这可能很困难,而且通常不可能找到额外项的估计值。在实践中,大多数研究人员在将序列扩展到一阶或二阶后停止,这可能会影响近似的准确性。通过模拟,只需增加 M 并让计算机运行更长时间,就可以达到任意高的精度。

5. 算法的使用技巧

5.1 模拟参数的技巧

统计程序通常报告参数估计的标准误差,但精确模拟需要完整的方差矩阵 V^(γ^)V^(γ^) 的对角线元素包括平方标准误差,而非对角元素表示从相同的概率分布重复抽取的一个参数估计和另一个参数估计之间的协方差。单独模拟每个参数是不正确的,因为此过程将忽略参数之间的协方差。几乎所有好的统计数据包都可以报告完整的方差矩阵,但大多数都要求研究人员通过设置选项或全局变量来明确要求。附录中描述的软件自动获取方差矩阵 (我们将会在之后的文章中详细介绍相关命令的使用)。

在模拟参数的过程中,一个常见的错误是从多元正态分布中提取时排除了一些参数。参数具有不同的逻辑状态,例如效应参数 β 和辅助参数 α,但我们的算法不需要区分两者:两者都是不确定的,应该进行模拟,即使只有一个在以后的计算中证明是有用的。通过从模拟阶段排除某些参数,可以加速我们的算法,但对于绝大多数应用来说,这些技巧是不必要的,并且可能导致错误。研究人员通常会无偏差地遵循我们模拟参数的算法,从而减少出错的风险。

在一些统计模型中,γ 的元素是正交的,因此软件包为每个集合提供单独的方差矩阵。在实现模拟参数的算法时,研究人员可能希望通过将单独估计的方差矩阵放置在对角线上,并在其他地方插入零来创建一个整体对角线矩阵。显然,如果 γ 的子集真的是正交的,则可以从独立的多元正态分布中得出这两个集合的等价图,但使用单个抽样分布可能更容易。

研究人员应重新参数化 γ 元素,以增加渐近多元正态近似在有限样本中成立的可能性。通常,所有参数都应该重新参数化,除非它们已经是无界的且逻辑对称的。

5.2 模拟感兴趣的数量的技巧

将模拟参数转换为感兴趣的量时,最安全的做法是模拟 Y,并以此作为获取其他量的基础。该规则相当于将所有模拟参数以及统计模型中的所有信息合并到计算中。当然,确实存在一些捷径。例如,在 Logit 模型中,我们可以通过以 π~ 停止来获得 E~(Y)。如果在估计阶段使用 Y 的某个函数,如 ln(Y) 作为因变量,研究者可以模拟 ln(Y),然后用逆函数 exp(ln(Y)) 来揭示 Y

此外,研究人员应该通过重复整个算法来评估任何模拟量的精度,并看看是否有任何实质性的重要内容发生了变化。如果确实发生了变化,则增加模拟次数并再试一次。在某些情况下,特别是当研究人员错误地指定了一个非线性统计模型时,精确地估计一个期望值所需的模拟次数可能比正常情况下要多。数值估计应该报正确的精度水平,例如,如果重复运行相同数量的模拟产生的估算值仅在小数点后第四位发生变化,则报告的数字应四舍五入至小数点后两或三位。

6. 结束语

King 等 (2000) 指出不确定性是学者们在进行数据分析时常遇到的问题,主要包括估计的不确定性 (来自未知的 β 和 α) 和基本不确定性 (来自偶然因素的不确定性)。同时,三位学者指出统计模拟是解决不确定性的主要方法,并开发了对应的 Stata 程序 CLARIFY。本文主要是对这篇文章的核心理论思想的推介,我们将在之后的文章中具体介绍相关的 Stata 命令。

7. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 模拟, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh