Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:肖蕊 (上海交通大学)
邮箱:1327536202@qq.com
编者按:本文主要摘译自下文,特此致谢!
Source:Kastellec J P, Leoni E L. Using graphs instead of tables in political science[J]. Perspectives on politics, 2007, 5(4): 755-771. -PDF- -Data-
目录
想象你正在完成文章的实证部分,你是倾向于用表格还是图示来展现自己的结果呢?参考 Kastellec 和 Leoni (2007) 对已有研究的分析,我们相信大多数人都会选择用表格来展示回归数据。为什么大家都喜欢用表格而不是图示来展示回归系数呢?基于既有政治学研究的分析,作者将使用表格的好处总结为以下几点:
相应地,可以得到图示不受待见的几个原因:
但是,对研究者来说用表格传递信息一定优于图示吗? Kastellec 和 Leoni (2007) 认为绘制图示带来的好处超过付出的辛苦:
接下来,我们将介绍一下如何使用图示方法来展现表格的内容。
究竟是应该选择图示还是表格来展示描述性统计结果呢?这要考虑研究者进行描述性统计的目的。如果是为了给复现该文章的后续研究在数据使用方面提供参照,那么表格确实更胜一筹。如果是为了让受众对数据情况有所感知,为文章后面的统计分析做铺垫的话,作者认为图示是更好的选择。
以 Iversen 和 Soskice (2006) 为例,文中表 1 为发达民主政体中选举制度和政府党派的交叉表,研究着重分析了多数选举制是否更可能呈现为右翼政府,而比例代表制是否更可能呈现为左翼政府。
上方表格列出了用于比较的原始数字,虽然这个 2
另一类常见的表格是用来展示关于中心趋势 (如均值) 和变动程度 (如标准差) 的。对于某个变量的特征,仅展示均值和标准差 (加上最小值和最大值) 可能并不是最好的选择。即使上述这些指标足以刻画出变量的特征,使用表格也难以对不同变量进行比较,更难以审查单个变量的分布情况,而图示可以达到这样的目的。
举例来说,McClurg (2006) 表 1 的 A 组结果展示了社交网络和政治参与之间关系的统计结果。
考虑到所有变量的取值范围近似,可以使用单一图示。图中的点刻画每个变量的均值,实线覆盖了均值上下一个标准差的范围,虚线覆盖了每个变量从最小值到最大值的范围。作者并未对变量进行随机排列或是按照首字母顺序排列,而是按照变量均值大小进行降序排列,这将使变量间的比较更为容易。由于受访者数量并不是变量本身的特征,可以将其列示在 y 轴下方。
图示的好处于是显而易见了:从点中可以很轻易查找和比较均值大小,线则直观反映了每个变量的分布。如图中表明变量 political talk 是右偏的,这在表中却难以发现。
为了更为全面对变量进行描述,可以参考 Kaplan 等 (2006) 的表 2,表格展示了研究者关于议题趋同性 (issue convergence) 和竞选竞争力 (campaign competitiveness) 的统计情况。
和前面的例子相比,该研究中使用的表格对图示展示提出了挑战:变量的取值范围差异很大。如果将所有变量包含在一个图中将会导致大多数变量受到挤压,从而无法提供足够信息。这时候该如何做呢?作者选择按照变量的相似程度进行分组,并使用多个图示来展示每组的结果,这样就可以在每个单独的图中对变量进行比较了。
Kaplan 等 (2006) 的表 2 中涉及 3 类主要变量:二元变量,以百万为单位的变量,以百分比为单位的变量。由于竞争力和议题显著性不属于这些类别,所以将这两个变量归入分布类似的组别。
首先要考虑对于各组的变量,哪种展示方式是最合适的。因为二元变量只有两个值,其分布完全由均值和样本大小决定。因此,在下图最上方的部分,作者绘制了二元变量的均值,将各变量降序排列,并将样本大小呈现在 y 轴中。这样可以清楚比较每个变量被赋值为 1 的频率。
后面两类变量都是连续的。而小提琴图 (Violin Plot) 将密度线叠加到箱线图的结构上,显示了变量分布的中心趋势和详细信息,包括是否有偏以及是否存在异常值。每个小提琴图中央部分给出的信息与传统箱线图类似:点表示中位数,白色的箱子连接两个四分位数,黑色的细线连接两个临近值。阴影区域刻画了每个变量密度分布,横轴上下两部分在绘制过程中是对称的,以此来提高可视化程度。
小提琴图可以揭示出表格无法反映的特征:首先,很多变量在很大程度上是有偏的。如变量 Issue Convergence 和 Issue Salience 的中位数都是 0 ,但是其分布的尾部都向右侧延伸。此外,可以看出变量 Total Spending/Capita 和 Difference Spending/Capita 存在异常值。
另一种刻画不同取值范围变量的作图方式是对其取值范围进行调整。为了说明这种作图方式,作者引用了 Schwindt-Bayer (2006) 关于拉丁美洲女性立法者态度和提案发起行为的研究。
表格中的多数行用来显示两个时期内四个拉美立法机构立法者提出的法案数量。表格的结构只允许对单个国家单一时期涉及的议题领域进行简单比较。对于每个领域原始作者使用了绝对数值而不是百分比的形式来反映提案数量,这将妨碍列与列之间的比较。使用百分比可以改善呈现方式,但是也会增加读者查找数据模式的负担。
作者将表格转化为高级点图:以议案发起总数量作为分母,将每个领域提出的议案数量转化为比例,并使用不同的符号呈现不同时期各机构在各个领域提及的议案占比 (第一个时期使用的符号标记为
如果简单地以线性比例将 x 轴缩放至 0 到 1 之间,当对应的领域涉及的议案数量较少时,这种做法将掩盖这些问题领域间的差异。于是作者遵循 Cleveland 的建议按照 log 2 的取值范围缩放 x 轴,并在图示的顶部和底部标注刻度来便于查找。在这种放缩处理后,相邻的两个标记中,右侧标记 (由灰色垂直实线表示) 在比例数值上是左侧标记的两倍。
以哥伦比亚参议院为例,相比于 1994-1998 这个时期,1998-2002 年里与健康有关的法案比例下降了一半。不同领域间的比较也变量容易了,如阿根廷在 1999 年,提及的财政事务的法案数量是妇女问题法案的两倍。因此,该图允许进行不同议题领域之间、不同国家之间以及不同时期的比较。使用两种符号可以容易地比较特定议题领域不同时期,以及单一时期不同议题领域的情况。
通过将所有图示放在一列,立法机构之间比较也变得更为容易。比如通过按照垂直方向阅读图示,可以看出 1998-2002 年间,哥伦比亚参议院提出的妇女问题相关议案占比高于哥伦比亚众议院。
回归表格的目的在于传达两个基本数值:点估计 (系数) 和不确定性估计 (常以标准差、置信区间或是假设检验的形式)。在作者参考的文章中,74% 的回归表格汇报了标准差,并附带由星号标记的系数,这些系数达到了常规的统计显著性水平。表格通常试图让显著性满足
但在野生动物管理、心理学、医学、统计学、预测学和政治学等领域都有文章指出,零假设显著性检验和对于
尽管有这些批评,政治学家很可能会继续依赖零检验显著性检验。鉴于这种情况,图示能否比标准回归表格做的更好呢?答案是肯定的,点估计和置信区间的图示可以像标准统计表格那样传递相同信息,同时又具有突出效应大小和易于比较系数的优点。置信区间有效地展示了与零假设显著性检验相同的信息。此外,置信区间有一个很大的优点:随着样本量增加,区间的大小会减小,这准确地表明我们对所感兴趣参数的估计更有把握了。
考虑 Ansolabehere 和 Konisky (2006) 中的表 4,作者估计了选民登记法对纽约州和俄亥俄州县级地区投票率的影响,并提出 6 中不同的模型来进行稳健性检验。需要注意的是,这时就约有三十多个系数和标准差的组合需要对比。
在表 6 中,作者使用置信区间代替标准误和星号给出了相同表格。虽然以这样的形式呈现估计结果时,推断变得更为直接,但是进行跨模型比较时就会很快出现问题。即使是简单的问题,比如哪些置信区间重叠,也要仔细留意符号,而且比较必须逐个进行。
这些问题指出了标准回归表格的一个主要优点:相比于其他方法,这种展示方式不易造成混乱。标准回归表还有以下优点:从表中可以清楚地看出每个模型中包含或者剔除了哪些自变量。此外,模型拟合统计量和观测值个数可以方便地添加到表格中。总之,回归表格能够以非常紧凑和可读的格式呈现模型的丰富信息。它们也能清晰地传达零假设显著性检验的结果。表格如此受欢迎也就不足为奇了。
图示能做得更好吗?后文的图示可以说明,图示可以轻易地呈现包括多个模型点估计和置信区间的结果。这样做,它们也可以清楚传达零假设显著性检验的结果。而且一旦我们不再仅考虑某个系数是否显著区别于 0,图示的好处会变得更加明显——可以适当突出效应大小,可以在单个模型内部或是多个模型之间对系数进行比较。
总之,如果打算使用图示展现回归结果,考虑到上述提及的有关表格的优缺点,我们需要找到一个合适的回归图示满足以下标准:
首先从绘制简单的回归表格入手。Stevens 等 (2006) 中表 2 显示了单个最小二乘回归的结果。通过对 6 个拉美国家精英人群的调查,研究者探究了经济感知、意识形态和人口统计变量,以及一系列国家虚拟变量对调查对象个人权威主义 (individual authoritarianism) 的影响。表格中浓缩了大量信息:回归拟合情况、观测个数、点估计、标准差、对于国家虚拟变量多重比较的显著性检验,以及指示 0.01、0.05 和 0.10 双尾
将相同的信息浓缩成简单的点图,与上一节使用的非常相似。利用估计量之间取值范围相似的优势将结果列在单一图示中。点表示点估计结果,水平线表示 95% 的置信区间。同时在数值 0 处放置一条垂直线,使得 x 轴的长度关于该参考线对称,以便估计正负系数的大小。每个自变量都列于 y 轴。作者暂不考虑常数项的估计值和标准差。最后,利用图示中的空白部分呈现 R 方,调整后的 R 方和观测值数量。
这样就显示了图示的若干优点:
从两个回归模型的案例开始,Pekkanen 等 (2006) 的表 1 呈现了两个两个 logistic 回归模型来检验日本自民党的职位分配。第一个模型包含了变量 PR Only 和 Costa Rican in PR,不包含变量 Vote share margin,而第二个模型相反。
这时可以使用不同符号表示点估计结果来区分两个模型:第一个模型为实心圆,第二个模型为空心圆。系数取值范围相似,从而可以将其放到一张图示上。由于多数系数为负,为节省空间不令 x 轴在 0 值附近对称。由于绘图区域没有空白,在标题中显示模型信息。与前面的例子不同,考虑到常数项在模型中有实际意义,将其包含在图示中。
通过绘制两个模型,可以轻松地比较每个模型内部或是两个模型间的系数差异。如任期变量的系数表明,所有条件相同的情况下,处在第一个任期的自民党成员相比于处在第三个任期的成员获得领导职位的可能性要小得多,而读者不一定能在拥挤的回归表格中一眼注意到这个直观的结果。
随着模型数量的增加,相比于在单一图示中展示所有模型和因素,可以选择使用多个小图来分别呈现每个因素对应的结果。现在我们可以将视线回到前文提及的 Ansolabehere 和 Konisky (2006) 的研究结果。回归表格展示了 6 个模型,这些模型在涉及样本 (全样本 vs 剔除特定县的样本) 和预测因素 (是否有州年份虚拟变量,是否有法律变更) 方面有所差别。
作者为 6 个影响因素的任何一个单独创建小图,并将这些小图放置在一列中。本文作者在 y 轴上显示参数估计值和 95% 的置信区间,x 轴指示对应的模型。在 x 轴维度,将模型进行分成:全样本,剔除特定县的样本,以及有州年份虚拟变量的全样本。在每种类型内部,又有两种不同的回归方法:区别在于有按照是否包含虚拟变量法律变更 (law change)。
绘图时,使用实心圆标记含法律变更的模型,使用空心圆标记不包含该变量的模型。为了便于对不同的影响因素进行比较,将 y 轴设置为以 0 为中心,这对应于每个影响因素的零假设。
这种绘图方式能够轻松地比较不同模型的点估计和置信区间。如尽管所有模型都显示,percent of county with registration 这个预测因素在 95% 水平显著,但是从图中可以清晰看出,使用州/年份虚拟变量的全样本模型估计结果和其他 4 个模型明显不同。通过把 0 值放在图表的中心,显而易见模型的设定会影响相关因素的估计系数符号 (如 log population 以及 log median family income)。
对于文中提到的方法,一个潜在的反对意见是,虽然图示有助于进行更好的比较,但同图示呈现数据或结果时也损失了精度。如果是希望进行复现研究,这种反对意见当然成立。但是从更宽泛的表达目的来看,精确和信息传递两者实际上是不冲突的:图示能有效呈现不确定性的固有能力是其主要优势之一。
Note:产生如下推文列表的 Stata 命令为:
lianxh 绘图, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh