Stata可视化:能用图形就不用表格

发布时间:2022-06-07 阅读 1139

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:肖蕊 (上海交通大学)
邮箱1327536202@qq.com

编者按:本文主要摘译自下文,特此致谢!
Source:Kastellec J P, Leoni E L. Using graphs instead of tables in political science[J]. Perspectives on politics, 2007, 5(4): 755-771. -PDF- -Data-


目录


1. 内容概述

想象你正在完成文章的实证部分,你是倾向于用表格还是图示来展现自己的结果呢?参考 Kastellec 和 Leoni (2007) 对已有研究的分析,我们相信大多数人都会选择用表格来展示回归数据。为什么大家都喜欢用表格而不是图示来展示回归系数呢?基于既有政治学研究的分析,作者将使用表格的好处总结为以下几点:

  • 易于绘制,可通过程序命令自动得到;
  • 存在范式,教学、演讲和发表都形成了一定标准;
  • 便于研究的复现。

相应地,可以得到图示不受待见的几个原因:

  • 更耗精力,即使有现成的程序包也要花费更多时间学习;
  • 更耗时间,需要反复迭代、试验和思考所要传递的信息,并挑选出能有效的传递信息的图示类型;
  • 更占版面,同时存在不适合使用图示的场合,如很多研究者认为无法使用图示展示回归结果。

但是,对研究者来说用表格传递信息一定优于图示吗? Kastellec 和 Leoni (2007) 认为绘制图示带来的好处超过付出的辛苦:

  • 作图的确耗费精力,但是这个过程也促使研究者更直接和清晰地展示问题;
  • 作者后续提供的示例证明,在多数情况下,图示占据的版面不一定超过原来的表格;
  • 使用图示传达实证结果是大有好处的。如展示的目的是在于比较而不是传递精确的数值时,好的图示表现优于图表。

接下来,我们将介绍一下如何使用图示方法来展现表格的内容。

2. 图示代替描述统计表格

究竟是应该选择图示还是表格来展示描述性统计结果呢?这要考虑研究者进行描述性统计的目的。如果是为了给复现该文章的后续研究在数据使用方面提供参照,那么表格确实更胜一筹。如果是为了让受众对数据情况有所感知,为文章后面的统计分析做铺垫的话,作者认为图示是更好的选择。

2.1 马赛克图 vs 交叉表

以 Iversen 和 Soskice (2006) 为例,文中表 1 为发达民主政体中选举制度和政府党派的交叉表,研究着重分析了多数选举制是否更可能呈现为右翼政府,而比例代表制是否更可能呈现为左翼政府。

上方表格列出了用于比较的原始数字,虽然这个 2×2 表格中的信息容易理解,但是作者认为使用马赛克图 (Mosaic Plot) 可以对信息进行更为清晰简洁地呈现:

  • 首先,马赛克图的一个重要特征是,每个矩形的面积与属于其各自类型的观测值数量成正比。从图中可以发现,比例选举制有关的矩形宽边更长,反映了样本中多数国家都有这样的制度;
  • 同时,作者想要展现的主要差别也立即呈现了出来,即比例选举制更可能产生左翼政府;
  • 其次,将原始数值添加到图上后,可以将表格的最有优势的地方,即准确传递数值大小,与图示的优势结合起来;
  • 最后,为了理解表格内容,受众需要阅读原文内容,当使用图示时,每一个子图上方的标题就清晰地传达了绘制的内容。

2.2 用点图呈现均值和标准差

另一类常见的表格是用来展示关于中心趋势 (如均值) 和变动程度 (如标准差) 的。对于某个变量的特征,仅展示均值和标准差 (加上最小值和最大值) 可能并不是最好的选择。即使上述这些指标足以刻画出变量的特征,使用表格也难以对不同变量进行比较,更难以审查单个变量的分布情况,而图示可以达到这样的目的。

举例来说,McClurg (2006) 表 1 的 A 组结果展示了社交网络和政治参与之间关系的统计结果。

考虑到所有变量的取值范围近似,可以使用单一图示。图中的点刻画每个变量的均值,实线覆盖了均值上下一个标准差的范围,虚线覆盖了每个变量从最小值到最大值的范围。作者并未对变量进行随机排列或是按照首字母顺序排列,而是按照变量均值大小进行降序排列,这将使变量间的比较更为容易。由于受访者数量并不是变量本身的特征,可以将其列示在 y 轴下方。

图示的好处于是显而易见了:从点中可以很轻易查找和比较均值大小,线则直观反映了每个变量的分布。如图中表明变量 political talk 是右偏的,这在表中却难以发现。

2.3 用点图和小提琴图呈现变量分布

为了更为全面对变量进行描述,可以参考 Kaplan 等 (2006) 的表 2,表格展示了研究者关于议题趋同性 (issue convergence) 和竞选竞争力 (campaign competitiveness) 的统计情况。

和前面的例子相比,该研究中使用的表格对图示展示提出了挑战:变量的取值范围差异很大。如果将所有变量包含在一个图中将会导致大多数变量受到挤压,从而无法提供足够信息。这时候该如何做呢?作者选择按照变量的相似程度进行分组,并使用多个图示来展示每组的结果,这样就可以在每个单独的图中对变量进行比较了。

Kaplan 等 (2006) 的表 2 中涉及 3 类主要变量:二元变量,以百万为单位的变量,以百分比为单位的变量。由于竞争力和议题显著性不属于这些类别,所以将这两个变量归入分布类似的组别。

首先要考虑对于各组的变量,哪种展示方式是最合适的。因为二元变量只有两个值,其分布完全由均值和样本大小决定。因此,在下图最上方的部分,作者绘制了二元变量的均值,将各变量降序排列,并将样本大小呈现在 y 轴中。这样可以清楚比较每个变量被赋值为 1 的频率。

后面两类变量都是连续的。而小提琴图 (Violin Plot) 将密度线叠加到箱线图的结构上,显示了变量分布的中心趋势和详细信息,包括是否有偏以及是否存在异常值。每个小提琴图中央部分给出的信息与传统箱线图类似:点表示中位数,白色的箱子连接两个四分位数,黑色的细线连接两个临近值。阴影区域刻画了每个变量密度分布,横轴上下两部分在绘制过程中是对称的,以此来提高可视化程度。

小提琴图可以揭示出表格无法反映的特征:首先,很多变量在很大程度上是有偏的。如变量 Issue ConvergenceIssue Salience 的中位数都是 0 ,但是其分布的尾部都向右侧延伸。此外,可以看出变量 Total Spending/CapitaDifference Spending/Capita 存在异常值。

2.4 使用高级点图呈现多重比较

另一种刻画不同取值范围变量的作图方式是对其取值范围进行调整。为了说明这种作图方式,作者引用了 Schwindt-Bayer (2006) 关于拉丁美洲女性立法者态度和提案发起行为的研究。

表格中的多数行用来显示两个时期内四个拉美立法机构立法者提出的法案数量。表格的结构只允许对单个国家单一时期涉及的议题领域进行简单比较。对于每个领域原始作者使用了绝对数值而不是百分比的形式来反映提案数量,这将妨碍列与列之间的比较。使用百分比可以改善呈现方式,但是也会增加读者查找数据模式的负担。

作者将表格转化为高级点图:以议案发起总数量作为分母,将每个领域提出的议案数量转化为比例,并使用不同的符号呈现不同时期各机构在各个领域提及的议案占比 (第一个时期使用的符号标记为 ,第二个时期使用的符号为 +)。

如果简单地以线性比例将 x 轴缩放至 0 到 1 之间,当对应的领域涉及的议案数量较少时,这种做法将掩盖这些问题领域间的差异。于是作者遵循 Cleveland 的建议按照 log 2 的取值范围缩放 x 轴,并在图示的顶部和底部标注刻度来便于查找。在这种放缩处理后,相邻的两个标记中,右侧标记 (由灰色垂直实线表示) 在比例数值上是左侧标记的两倍。

以哥伦比亚参议院为例,相比于 1994-1998 这个时期,1998-2002 年里与健康有关的法案比例下降了一半。不同领域间的比较也变量容易了,如阿根廷在 1999 年,提及的财政事务的法案数量是妇女问题法案的两倍。因此,该图允许进行不同议题领域之间、不同国家之间以及不同时期的比较。使用两种符号可以容易地比较特定议题领域不同时期,以及单一时期不同议题领域的情况。

通过将所有图示放在一列,立法机构之间比较也变得更为容易。比如通过按照垂直方向阅读图示,可以看出 1998-2002 年间,哥伦比亚参议院提出的妇女问题相关议案占比高于哥伦比亚众议院。

3. 图示代替表格回归分析

3.1 关于回归表格和置信区间

回归表格的目的在于传达两个基本数值:点估计 (系数) 和不确定性估计 (常以标准差、置信区间或是假设检验的形式)。在作者参考的文章中,74% 的回归表格汇报了标准差,并附带由星号标记的系数,这些系数达到了常规的统计显著性水平。表格通常试图让显著性满足 p0.01p0.05 或是 p0.1,以引起人们的注意。

但在野生动物管理、心理学、医学、统计学、预测学和政治学等领域都有文章指出,零假设显著性检验和对于 p 值的依赖可能会导致统计推断中的严重错误。这些文章建议在汇报回归结果时,使用置信区间来代替 p 值和显著性检验。

尽管有这些批评,政治学家很可能会继续依赖零检验显著性检验。鉴于这种情况,图示能否比标准回归表格做的更好呢?答案是肯定的,点估计和置信区间的图示可以像标准统计表格那样传递相同信息,同时又具有突出效应大小和易于比较系数的优点。置信区间有效地展示了与零假设显著性检验相同的信息。此外,置信区间有一个很大的优点:随着样本量增加,区间的大小会减小,这准确地表明我们对所感兴趣参数的估计更有把握了。

考虑 Ansolabehere 和 Konisky (2006) 中的表 4,作者估计了选民登记法对纽约州和俄亥俄州县级地区投票率的影响,并提出 6 中不同的模型来进行稳健性检验。需要注意的是,这时就约有三十多个系数和标准差的组合需要对比。

在表 6 中,作者使用置信区间代替标准误和星号给出了相同表格。虽然以这样的形式呈现估计结果时,推断变得更为直接,但是进行跨模型比较时就会很快出现问题。即使是简单的问题,比如哪些置信区间重叠,也要仔细留意符号,而且比较必须逐个进行。

这些问题指出了标准回归表格的一个主要优点:相比于其他方法,这种展示方式不易造成混乱。标准回归表还有以下优点:从表中可以清楚地看出每个模型中包含或者剔除了哪些自变量。此外,模型拟合统计量和观测值个数可以方便地添加到表格中。总之,回归表格能够以非常紧凑和可读的格式呈现模型的丰富信息。它们也能清晰地传达零假设显著性检验的结果。表格如此受欢迎也就不足为奇了。

图示能做得更好吗?后文的图示可以说明,图示可以轻易地呈现包括多个模型点估计和置信区间的结果。这样做,它们也可以清楚传达零假设显著性检验的结果。而且一旦我们不再仅考虑某个系数是否显著区别于 0,图示的好处会变得更加明显——可以适当突出效应大小,可以在单个模型内部或是多个模型之间对系数进行比较。

总之,如果打算使用图示展现回归结果,考虑到上述提及的有关表格的优缺点,我们需要找到一个合适的回归图示满足以下标准:

  • 应当易于评估系数的统计显著性;
  • 应当能够将若干回归模型并列展示 (就像目前表格所展示的);
  • 当模型因涉及变量不同而有所差异时,读者应当能清晰地了解每个模型包含哪些变量;
  • 应当包含模型的信息;
  • 图示应当关注置信区间,而不 (仅) 是 p 值。

3.2 绘制单一回归结果

首先从绘制简单的回归表格入手。Stevens 等 (2006) 中表 2 显示了单个最小二乘回归的结果。通过对 6 个拉美国家精英人群的调查,研究者探究了经济感知、意识形态和人口统计变量,以及一系列国家虚拟变量对调查对象个人权威主义 (individual authoritarianism) 的影响。表格中浓缩了大量信息:回归拟合情况、观测个数、点估计、标准差、对于国家虚拟变量多重比较的显著性检验,以及指示 0.01、0.05 和 0.10 双尾 p 值的星号。

将相同的信息浓缩成简单的点图,与上一节使用的非常相似。利用估计量之间取值范围相似的优势将结果列在单一图示中。点表示点估计结果,水平线表示 95% 的置信区间。同时在数值 0 处放置一条垂直线,使得 x 轴的长度关于该参考线对称,以便估计正负系数的大小。每个自变量都列于 y 轴。作者暂不考虑常数项的估计值和标准差。最后,利用图示中的空白部分呈现 R 方,调整后的 R 方和观测值数量。

这样就显示了图示的若干优点:

  • 首先,在统计显著性方面,图示能从视觉上 (如水平线长度) 显示哪些变量是显著的:即那些没有穿越参考线 (0 值) 的变量。因而从垂直方向上扫一眼图示就可以快速了解变量的显著情况;
  • 此外,回归结果的视觉显示还能将读者注意力转移到与分析更相关,或者更有趣的信息上:估计的效应大小以及对应的不确定程度;
  • 相比于回归表格,置信区间的使用还提供了更多直观的信息。比如当置信区间不重叠时,可以得出两个估计系数在统计上有显著差异的结论。

3.3 将多个模型呈现在同一图示上

从两个回归模型的案例开始,Pekkanen 等 (2006) 的表 1 呈现了两个两个 logistic 回归模型来检验日本自民党的职位分配。第一个模型包含了变量 PR OnlyCosta Rican in PR,不包含变量 Vote share margin,而第二个模型相反。

这时可以使用不同符号表示点估计结果来区分两个模型:第一个模型为实心圆,第二个模型为空心圆。系数取值范围相似,从而可以将其放到一张图示上。由于多数系数为负,为节省空间不令 x 轴在 0 值附近对称。由于绘图区域没有空白,在标题中显示模型信息。与前面的例子不同,考虑到常数项在模型中有实际意义,将其包含在图示中。

通过绘制两个模型,可以轻松地比较每个模型内部或是两个模型间的系数差异。如任期变量的系数表明,所有条件相同的情况下,处在第一个任期的自民党成员相比于处在第三个任期的成员获得领导职位的可能性要小得多,而读者不一定能在拥挤的回归表格中一眼注意到这个直观的结果。

3.4 将多个模型呈现在多张图示上

随着模型数量的增加,相比于在单一图示中展示所有模型和因素,可以选择使用多个小图来分别呈现每个因素对应的结果。现在我们可以将视线回到前文提及的 Ansolabehere 和 Konisky (2006) 的研究结果。回归表格展示了 6 个模型,这些模型在涉及样本 (全样本 vs 剔除特定县的样本) 和预测因素 (是否有州年份虚拟变量,是否有法律变更) 方面有所差别。

作者为 6 个影响因素的任何一个单独创建小图,并将这些小图放置在一列中。本文作者在 y 轴上显示参数估计值和 95% 的置信区间,x 轴指示对应的模型。在 x 轴维度,将模型进行分成:全样本,剔除特定县的样本,以及有州年份虚拟变量的全样本。在每种类型内部,又有两种不同的回归方法:区别在于有按照是否包含虚拟变量法律变更 (law change)。

绘图时,使用实心圆标记含法律变更的模型,使用空心圆标记不包含该变量的模型。为了便于对不同的影响因素进行比较,将 y 轴设置为以 0 为中心,这对应于每个影响因素的零假设。

这种绘图方式能够轻松地比较不同模型的点估计和置信区间。如尽管所有模型都显示,percent of county with registration 这个预测因素在 95% 水平显著,但是从图中可以清晰看出,使用州/年份虚拟变量的全样本模型估计结果和其他 4 个模型明显不同。通过把 0 值放在图表的中心,显而易见模型的设定会影响相关因素的估计系数符号 (如 log population 以及 log median family income)。

4. 总结

对于文中提到的方法,一个潜在的反对意见是,虽然图示有助于进行更好的比较,但同图示呈现数据或结果时也损失了精度。如果是希望进行复现研究,这种反对意见当然成立。但是从更宽泛的表达目的来看,精确和信息传递两者实际上是不冲突的:图示能有效呈现不确定性的固有能力是其主要优势之一。

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 绘图, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh