论文中因果推断的经典图形

发布时间:2022-06-23 阅读 592

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:陈卓然(中山大学)
邮箱chenzhr25@mail2.sysu.edu.cn


目录


1. 缘起

Matt Notowidigdo 教授在推特上发起了「What is one of your favorite figures in economics? 」的接龙活动,来自耶鲁大学的经济学家 Paul Goldsmith 梳理了其中得分最高的几张图。

2. Griliches (1957)

Griliches Z. Hybrid corn: An exploration in the economics of technological change[J]. Econometrica, Journal of the Econometric Society, 1957: 501-522. -PDF-

第一张图是来自芝加哥大学 Zvi Grilliches 的博士论文 (后发表在 Econometrica)。这篇文章主要研究美国杂种玉米在不同州和不同时间,种植率不同的背后原因。上图显示了美国杂交玉米种植率的时空差异性,从时间的维度看,杂交玉米的种植率呈现 “S 型曲线” 的扩散模式。

为此,作者选择 Logistic 函数去拟合上图中的每一条曲线。具体而言,作者是这样定义 Logistic 生长曲线的:

其中,P 代表杂交玉米以百分比呈现的种植面积,K 代表长期均衡值,b 代表生长率系数。Logistic 函数有一个最大的优点是,种植率正比于已经存在的种植面积和与长期均值的距离,具体而言:

作者为了估计这个 Logistc 回归,将Logistic生长曲线取倒数并取 log,然后稍加简单变形之后得到:

然后我们就可以使用最小二乘的方法去估计参数 a 和 b 了,回归结果如下表所示:

其中 (2.2a)/b 表示 Logistic 函数超过 10% 的时期。接着,作者开始探讨技术变革对种植率的影响。最终得出的结论是,杂交玉米种植率的滞后是由于进入壁垒造成的。同样不同州的杂交玉米种植率与均衡种植率的差异,也可以被从传统玉米向杂交玉米转换的利润率解释。

3. Jensen (2007)

Jensen R. The digital provide: Information (technology), market performance, and welfare in the South Indian fisheries sector[J]. The quarterly journal of economics, 2007, 122(3): 879-924. -PDF-

第二张图是 Robert Jensen 2007 年发表在 QJE 上的一篇文章。这篇文章论述的是当信息很有限或者很昂贵时,代理商将不能参与到最优的套利活动中。此时一价定律失效,商品将不能被有效地进行分配,因此信息技术的进步会提高市场效率增加全社会的福利。

作者针对印度南部的一个拥有庞大养鱼业的州 Kerala,在 1997 年到 2001 年引入移动手机之后价格变化的事件展开分析,研究发现移动手机在零售商和渔民之间采用率的提升,可以大幅降低价格分散,避免浪费,并且可以使得一价定律近乎完美地成立,同时消费者和渔民的福利都会得到显著地提升。

作者考虑了Kerala 北部的三个地区:Kasaragod,Kannur,以及 Kozhikode,三个地区的分布如下图所示:

三个周的手机普及的时间不同,上图便展示了三个地区普及手机的时间差异:Kozhikode 为 1997 年 1 月 29日,Kannur 为 1998 年 7 月 6 日,以及 Kasaragod 为 2000 年 5 月 21 日。可以看到在手机普及事件刚刚发生的几个月内,手机的使用率大幅攀升,最终基本都稳定在 60-75% 左右。手机被广泛用于海鲜市场当中,并且很大程度改变了传统的沙滩拍卖的销售模式,渔民可以提前联系好买家,甚至在海上捕鱼的时候就可以商议好价格。

作者试图探究价格分散、浪费以及社会福利对不同地区交错引入手机的反应。具体地,将样本分为四个时间段:1-22 周 (没有地区使用手机),23-97 周 (只有地区 1 有手机),98-197 (地区 1 和地区 2 都有手机) 以及 198-249 周 (三个地区都有手机)。接着,令 Y¯r,p 表示在地区 r 时期 p 感兴趣的结果变量均值,构造如下 DID 方程:

Z 是一系列控制变量,包括海风条件,海洋环境以及燃油价格等变量。当然作者 DID 的前提是要求三个地区在引入手机之前的结果变量是相同的。回归结果如下:

上表的第一部分的 Max-min 价格差是取早上 7:30 到 8:00 这段时间的最高价和最低价。可以发现,当没有引入手机时,三个区域内的价差都在 7.6-8.2Rs/Kg。但是当引入手机之后,以第一个区域为例,这一价差迅速从 7.6 降低到 1.86,而相比之下其余两个区域的价差基本没有改变,同样的影响也发生在区域二和区域三。

上表的第二部分采用变异系数 (标准差除以均值) 来测度价格的分散程度。可以看出,在没有引入手机之前价格分散程度非常高,其价格的标准差大概占价格均值的 62%-69%。但是在引入手机之后,对于任意一个地区而言,这一变异系数都大幅下降。

上表的第三部分作者考虑的是浪费率,也就是渔民们没有卖出的鱼占比。同样可以看出,在没有引入手机之前,浪费率都是非常高,但当引入手机之后这一浪费率均显著下降到 0。作者为进一步体现手机的引入对于价格的影响,绘制了下图:

这张图绘制的是 7:30-8:00 AM 间 1kg 沙丁鱼价格平均值的时间序列图。可以看到,对于三个地区在手机引入之前价格的分散程度都是非常之高的,然而在引入手机之后价格的波动性都有了极为显著的下降。此外这张图还显示了在第一个时间段当手机被引入第一个地区之后,只有第一个区域内的价格波动性减弱了,区域二和区域三均没有明显变化,这也表明每一个区域内手机的引入可以看作是独立的。

4. Jacobson, Lalonde, Sullivan (1993)

Jacobson L S, LaLonde R J, Sullivan D G. Earnings losses of displaced workers[J]. The American economic review, 1993: 685-709. -PDF- -Link-

这是 Jacobson 在 1993 年发表在 AER 中的一篇文章。文章主要研究了被替代工人的工资损失大小和时间维度上的模式。作者发现高任期的工人失业后会遭受长期损失,每年平均 25%。此外作者还发现被替代的工人工资损失在他们失业初期是最大的,并且不怎么与性别和年龄有关,但是严重依赖于当地劳动力市场条件。

第三张图分析的是在 1982 年初宾夕法尼亚州被替换的工人工资损失。可以看到,在 1982 年第一季度脱离公司的这批工人的收入,相较于那些留在公司中的工人收入有着非常明显的下降,甚至是在脱离公司四年之后,他们的工资仍然比那些没有脱离公司的同事要低 2000 美元/每季度。

但同时我们注意到在 70 年代中期,这两组工人们的工资几乎是一样的,因此这两组工人与收入有关的特性应该是极为相似的。如果不是一些特殊事件的发生,这两组工人 在1982 年之后的工资也应该是类似的。所以在 1982 年之后两组工人显著的工资差异应该是由于处理组工人被替换造成的。

但是作者也指出在 70 年代末期,处理组相对于控制组的季度工资开始出现一定的偏离,这似乎意味着处理组工人的工资即使在没有发生处理事件也会和控制组拉开差距。作者后面指出第二种说法是错误的。作者将被替换工人的工资损失定义为,他们实际的季度工资和他们如果没有被替换仍然留在公司里能够拿到的工资之差。

作者采用的估计方程如下:

其中 Di,tk 表示处置效应事件的发生,因此 δk 是我们关心的处置效应。作者接下来考察了大规模裁员期间的工资损失,并绘制了如下这张图 (非常受到经济学家的喜欢的):

这张图表明那些高任期且处于黄金年龄段的工人,在大规模裁员期间被替换会遭受巨大的损失,甚至在六年之后他们的工资仍然低于预期水平 1600 美元/每季度。由于在控制了与工人相关的时间趋势时,损失会被进一步放大,所以这并不是由于雇主们有意替换掉那些工资增长缓慢的工人。

此外,从这张图中我们还可以发现,那些导致工人们离职的事件对于其工资的影响,在他们离开公司之前就已经显现了。由上图可以看出,在工人们离开公司大概三年之前,其实际工资就已经显著低于其预期工资了,而且这一差距在临近离职之前越发明显。

5. David (2007)

Lee D S. Randomized experiments from non-random selection in US House elections[J]. Journal of Econometrics, 2008, 142(2): 675-697. -PDF- -Appendix-

这是 David Lee 2007 年发表在 JoE 的一篇文章。这篇文章证明了在一个相对弱的条件,RD 回归分析可以和随机实验环境下一样可信。在此条件下,RDD 有效性可以通过检查在 RD 断点处,任何前定变量是否有一个断点来检验。作者以美国国会选举为例展开论证。在这篇文章中经济学家最喜欢的是以下两幅图:

a 图反映的是在位者优势的 RD 估计。这张图的纵轴是一个民主党人在 t+1 竞选成功的概率,横坐标是 t 时期民主党的选票份额减去共和党的选票份额。在虚线右边的表示民主党赢得选举,虚线左边表示民主党输掉选举。从图中可以明显看出在零点存在显著的断点跳跃:这一期勉强赢得选举的民主党人,在下一期选举中赢得选举的概率要显著高于这一期刚刚输掉选举的民主党人,这一概率大约是 0.45。

b 图反映的是在断点处的一个小区间内,其余前定特征变量是平衡的。具体的统计性检验结果可以参考下表的最后两列。

6. Almond (2006)

Almond D. Is the 1918 influenza pandemic over? Long-term effects of in utero influenza exposure in the post-1940 US population[J]. Journal of political Economy, 2006, 114(4): 672-712. -PDF-

这是美国哥伦比亚大学的 Almond 教授 2006 年发表在 JPE 上的一篇文章。这篇文章通过 1918 年流感大爆发作为自然实验来检验胎儿起源假说。大流感在 1918 年秋天突然降临,然后在 1919 年 1 月基本消除。作者采用美国 1960-1980 年代美国人口普查的数据进行实证分析,研究发现在 1918 年大流感中子宫有类似特征的一群人往往呈现教育水平落后,更低的收入,更低的社会地位等特征,因此作者认为投资于胎儿健康将有利于提升人力资本。

这张图绘制的是,那些由于身体残疾而无法参加工作的男性比例与其出生年份之间的关系,可以发越年轻的人越不容易残疾。但是这张图中最令人吃惊的是,在 1919 年 1 月到 1919 年 12 月之间出生的男人残疾率显著高于平均趋势。实际上,这群人在大流感爆发的最高峰时刚好出生,由于胎儿流感的影响,其平均残疾率也更高。

7. Berger, Turner and Zwick (2020)

Berger D, Turner N, Zwick E. Stimulating housing markets[J]. The Journal of Finance, 2020, 75(1): 277-321. -PDF- -Appendix- -Replication-

这是来自杜克大学的 Berger 教授等人在 2020 年发表在JF上的一篇文章。这篇文章研究了用来支持处于低谷期房地产市场的短期财政刺激计划,这一计划是通过刺激私人市场中买家的需求来实现的。作者在这篇文章中综合使用了 SIS 和拐点回归设计的方法,发现首次购房补贴可以增加房子销售量 9.8%,房屋拥有率提高了 53%。同时作者发现政策的效果持续期会很长,因为需求方都是来自于未来的需求,这一项目的市场稳定效果很有可能会超过直接的刺激计划。

在这张图中,作者是绘制了 2007 年 7 月到 2011 年 11 月每月房屋销售量,并将全部地区分成 100 组,然后按照各自地区受到政策影响的大小排序。作者将这些数据以日历热力图的形式呈现出来,列代表是月份,行代表的是每一个地区,每一个格子的阴影深浅代表着结果变量的水平,也就是月度房屋销售量。这个热力图呈现了几个特点:

  • 首先在政策发生之前每一个月里高暴露序列和低暴露序列是相互交错的,但是在政策干预期内并非如此;
  • 其次这种梯度并不会在第二个政策到期之后的 15 个月后反转,这意味着政策效果并不会迅速转变。

8. Kleven, Soogard and Landais (2019)

Kleven H, Landais C, Søgaard J E. Children and gender inequality: Evidence from Denmark[J]. American Economic Journal: Applied Economics, 2019, 11(4): 181-209. -PDF- -Appendix- -Replication-

这是来自普林斯顿大学的 Kleven 教授在 2019 年发表在 American Economic Journal: Applied Economics 上的一篇文章。这篇文章通过使用丹麦的数据探究了孩子们对劳动力市场性别不平等的影响。作者发现孩子的到来造成了一种长期的性别差距:工资差距大概 20%。

这种差距是由每周工作的小时数、参与率以及工资率等等造成的。作者识别了驱动这种 “孩子惩罚” 背后的机制。作者发现这种孩子惩罚造成的性别不平等在最近的三到四十年中越来越显著。最后作者也论证了这种 “孩子惩罚” 可以通过代际传递,因而可能会对孩子的成长造成一定的影响。在这篇文章中经济学家们选中的是下面这两张图:

这两张图分别反映了男性和女性在有孩子和没孩子之间收入的演进的不同。从 A 图可以看到,有孩子和没孩子的女性在事前有着相同的趋势,而在第一个孩子出生时有一个非常显著的分离,这样的差距一旦拉开,在日后的很长一段时间内都不会有很大的变化,非常稳定,这种长期趋势大概有 20.6%。从图 b 可以看到,对于男性来说孩子的惩罚虽然非常微小,但是在大概 10 年之后也有 3% 的差距,这一差距表明孩子惩罚会通过女性传导到男性身上。

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 论文, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh