锚定情境法(三):一篇 AER 论文的应用解读

发布时间:2020-11-19 阅读 2418

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者: 张沛康 (北京大学, patrick.zhang@pku.edu.cn)

连享会 Stata 暑期班-论文班助教

Source: 以下内容源自 Kapteyn et al. (2007): Kapteyn A, Smith J P, Van Soest A. Vignettes and self-reports of work disability in the United States and the Netherlands[J]. American Economic Review, 2007, 97(1): 461-473.[link]


目录


1. 背景

在前两期关于锚定情境法的推文中,我们介绍了锚定情境法的原理、方法、实例和相关拓展知识,参见:

本期中,我们将介绍 American Economic Review 里一篇运用了锚定情境法的论文,以此为例来观察学者如何将锚定情境法运用在经济学研究中。

在许多工业化国家里,工作伤残 (work disability) 是一个很普遍的现象。从理论上来说,在各个经济发展和医疗水平相似的国家中,工作伤残的劳动者比例理应是比较接近的,但在实际上这些国家之间存在着较大的差异。本期我们介绍的这篇论文将基于美国和荷兰的数据,通过锚定情境法来对这个疑惑作出解答。

在一些微观调查的数据中可以发现,不同国家的劳动者在工作伤残的自评打分上有着显著的差异。如果要对不同国家劳动者的自评打分进行对比,就需要了解受访者们在多大程度上使用了相同的评价标准。因为当受访者使用了相同的评价标准,他们在工作伤残自评题的打分差异反映的是客观健康状况的真实差异。

如图 1 所示,概率密度曲线代表的是国家 A 和 B 人群的客观健康水平,横轴上的刻度表示两个国家人群的自评健康。我们可以发现,国家 A 的概率密度函数曲线比国家 B 更加向左偏移,说明国家 A 的客观健康水平比 B 要低。然而,从横轴上的刻度可知,两个国家的人群使用了不同的评价标准。观察虚线的位置,我们可以发现,国家 A 处于虚线状态的人群会认为自己「非常健康」,然而国家 B 的人会认为自己「差不多」。由此可见,国家 A 人群对自身的健康状况更为乐观。两个国家的人群的客观健康水平和自评健康存在着不一致的现象。

为了使自评健康能够反映客观健康水平,我们需要通过情境题来纠正项目功能差异 (differential item functioning, DIF)。在前两期的推文我们也介绍了关于锚定情境法的原理,我们已知受访者面对的情境题人物的客观健康状况是一致的,因此受访者的应答差异源自评价标准的差异。但这需要满足一个假设:应答一致性 (response consistency),即每个受访者使用同样的方式去回答自评题和情境题。

以下为锚定情境法中参数法的基本原理:

εriN(0,σr2)εri 与 Xi 相互独立

Yri=j 如果 τij1<Yri5j=1,,5

τi0=,τi5=,τi1=γ1Xi+ui

uiN(0,σu2)ui 与 Xi 和其他误差项相互独立

其中,Xi 为受访者的个体特征,包括国家虚拟变量以及其他控制变量与国家虚拟变量的交互项。如果不同的受访者使用不同的评价标准 τij,这被称作 DIF。ui 在评价标准内引入不可观测的个体效应。虽然我们无法得出每个人调整后的打分,因为 Yri 无法被观测,但我们可以基于 Xi 来模拟出 Yri 的分布。

2. 实证分析

2.1 情境题和自评题的设置

这篇文章有三个数据来源:荷兰中心调查 (the Dutch CentERpanel)美国每月随机网络调查 (the US RAND MS Internet panel) 美国 1998 年健康和退休调查 (the US HRS wave 1998) 。里面有 15 道情境题,包括与情绪、疼痛、心血管疾病有关的题目各 5 道。以情绪话题为例,情境题包括以下五道题:

[Henriette]享受她的工作。她每三周会有一两天感到沮丧和对她手头上的日常工作失去兴趣。

[Jim]非常享受他的工作。他经常会认为自己在做一项非常棒的工作,且对未来感到乐观。

[Tamara]对工作的态度摇摆不定。当它感到沮丧的时候,工作中的所有事情对于她来说都是负担,她不在享受工作中的日常活动。这种心情是难以预测的,一个月会发生两到三次。

[Eva]时刻会感到焦虑。她每周会有两天感到沮丧,会去思考将会犯什么错误,以及她的领导会不认可她的工作。但如果她专注一些事情的时候她可以摆脱这些情绪。

[Roberta]许多时候都会感到沮丧。她在工作时经常流泪,对未来感到毫无希望。她认为她自己已经成为了合作者的负担,且认为自己最好已经结束生命。

三个调查中都有这一道自评题:

你的身体有受伤或其他会对工作造成影响的健康疾病吗?

在美国的调查中,这道自评题有两个选项 (是、否);在荷兰的第一轮调查中,有五个选项:(1) 从来没有;(2) 有,一点点;(3) 有,中等程度的限制;(4) 有,严重限制;(5) 有,极度限制,无法工作。此轮调查之后的几个月,荷兰受访者回答同样的问题,但此时选项只有两个 (是、否)。

表 1 为荷兰和美国受访者的自评健康和客观健康状况。对于中等年龄劳动者来说,荷兰的自评得分比美国显著更高,45-54 岁的差异大概在 20%。相反,荷兰受访者比美国受访者更健康。从客观健康状况的变量来看,荷兰人比美国人更健康。在 45-64 岁群体中,除了与主观测量有关的情绪变量,其他变量显示美国的患病率通常更高。但是,我们的重点并非去讨论荷兰人是否比美国人更健康,我们主要关注的是两国的健康标准测量差异无法解释为何荷兰有较高的比例的受访者存在工作伤残。

表 2 是荷兰和美国受访者在三类话题的情境题的应答情况。由该表可知,在疼痛 (Pain)和情绪 (Affect)类情境题中,美国受访者通常认为「没有任何限制」 (1 分) ,荷兰受访者有更高的比例选择「轻微」 (2 分) 和「中等」(3 分) 。与前两类情境题相比,荷兰和美国受访者在心血管疾病 (CVD) 类情境题的应答情况更加接近,这是因为心血管疾病 (CVD) 情境的“客观程度”更高。

总的来说,荷兰人更不愿意去选择「极度」 (5 分),更倾向于选择「中等」 (3 分),美国人则更倾向于选择「严重」(4 分) 或“极度”(5 分)。

2.2 参数估计

表 3 呈现了没有调整评价标准和调整评价标准后的结果。前两列的结果为没有调整评价标准的结果,即没有考虑阈值 (threshold) 的潜在差异,与用 probit 模型估计的结果是一致的。中间两列的结果为受访者个体特征对第一个阈值的估计效应。在本次分析中,第一个阈值的结果是最重要的,因为它决定了受访者用两点法来评价自身是否存在工作伤残。最后两列的结果是调整评价标准后,受访者个体特征对工作伤残自评题的影响。

由前两列的结果可知,在没有调整评价标准时,美国受访者的工作伤残自评得分随着受教育程度的提高而降低,随着年龄的增加而提高,随着健康状况的改善而有明显地提高,但在男性和女性之间没有显著的差异。美国受访者的年龄和受教育程度的效应比荷兰受访者更为「陡峭」。

由后两列的结果可知,当调整评价标准后,在美国,随着受教育程度的提高,工作伤残的自评得分有着更大幅度的降低。再结合中间两列结果,作者发现了其原因:第一个阈值 (从 1 分迈进 2 分) 与更高受教育程度的受访者有着显著负相关的关系,说明这个阈值被受教育程度更低的受访者使用。而在荷兰,疼痛和情绪问题是造成工作伤残的重要原因。工作伤残与受教育程度之间的关系更弱,无论是调整评价标准前还是调整评价标准后,都是如此。

由中间两列的结果可知,在美国,女性比男性的阈值更高。在荷兰,没有证据表明男性和女性之间使用了显著不同的阈值。与没有情绪问题的受访者相比,有情绪问题的受访者更倾向于使用更低的阈值,但这个阈值的差异在美国是更大的。

下图是作者在附录中呈现的一些参数的估计结果,这部分由于篇幅限制没有在表 3 中呈现。 从附录的结果可知,θd 在三类话题的情境题中均为负数,且在疼痛和心血管疾病话题中更为显著。如果情境题中的人物是女性时,受访者会使用更低的阈值。因此,无论是对于男性还是女性受访者来说,男性情境人物都看起来更容易有工作伤残的情况。

此外,我们还发现阈值的不可观测异质性,导致同一个受访者对不同情境题打分之间的正相关,以及自评题和情景题打分之间的正相关。不可观测异质性 ui 的标准差为 3.62,标准误差为 0.15。工作伤残的不可观测异质性 σr 被设定为 10,情境题 σ 为 5.51,这说明自评题和情境题之间的相关系数为 0.08。

2.3 不同国家的工作伤残差异

在表 4,作者在比较美国和荷兰的应答差异的基础上,对工作伤残的比例进行了估计。这部分主要采用的是 51-64 岁的受访者样本。Panel 1 是调整评价标准之前和之后的结果。Panel 2 考虑的是慢性健康状况对工作伤残的影响。Panel 2 的估计采用了以下公式:

其中,P(A) 和 P(B) 分别为国家 A 和 B 的工作伤残比例 (预测值) ,P(A)j 和 P(B)j 分别为国家 A 和 B 中大家不存在健康问题时的工作伤残比例 (预测值) ,即“反事实”,则 P(A)P(A)j 和 P(B)P(B)j 可以被解释为国家 A 和国家 B 由于存在健康问题而造成的工作伤残比例 (预测值) 。因此,P(A)P(A)j 的值取决于健康问题的流行性和健康问题导致工作伤残的概率。

g(xi,bA) 是具备特征 xi 的个体和存在工作限制的系数矩阵 bA 的概率,xij 是第 j 个元素 xij=0 的矩阵 xi。等式后边第一项是国家 A 遭受健康问题的部分 (国家 A 的“传递效应”),第二项中可以被视为健康问题对工作伤残的平均影响,Δg(xij,bA) 是一个虚拟变量。

结果显示,对于 51-64 岁群体来说,除了疼痛,美国的其他慢性疾病的传播效应都比荷兰要大。在调整评价标准后,慢性疾病解释了荷兰 13.9%和美国 7.9%的工作伤残问题。所有的健康问题可以共同解释荷兰 20.6%和美国 16.1%的工作伤残问题。所有健康问题可以解释 4.5%的两个国家的工作伤残差异,其中疼痛已经几乎可以解释全部差异。

2.4 稳健性检验

最后,作者用不同的模型进行稳健性检验,依次包括:(1) 没有调整评价标准;(2) 使用所有情境题;(3) 不考虑阈值的不可观测异质性;(4) 纳入中等、严重、极端三个选项;(5) 不考虑健康状况变量;(6) 只使用情绪话题的情境题;(7) 只使用疼痛话题的情境题;(8) 只使用心血管疾病话题的情境题;(9) 允许三类话题的情境题的阈值不一致。

结果如表 5 所示,两个国家的工作伤残差异在很大程度上归因于评价标准的差异。值得一提的是,第 (4) 种处理方法的结果没有较大差异,说明是否存在工作伤残主要是由 1-3 分决定,因此当我们纳入更多极端值时,没有对结果产生显著的影响。第 (5) 种处理方法是考虑到不同国家的受访者对健康状况的应答可能存在系统性的差异。此外,由于基准模型假设受访者在对工作伤残的不同话题进行评价时采用了相同的评价标准,因此作者通过第 (6)-(8) 种处理方法来检验此假设的合理性。结果显示,不同话题的情境题会产生不同的结果。如果仅使用情绪类情境题,评价标准的调整幅度将会很大,评价标准的差异在很大部分上解释了工作伤残自评得分的差异。但仅使用心血管疾病类情境题时,情况却是相反的:荷兰和美国受访者使用了相似的评价标准,工作伤残的自评差异有少于四分之一能被评价标准的差异所解释。当仅使用疼痛类情境题时,估计结果位于上述提到的情绪类和疾病类情境题的结果之间。

3. 参考文献和扩展阅读

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看

专题 嘉宾 直播/回看视频
最新专题 因果推断, 空间计量,寒暑假班等
数据清洗系列 游万海 直播, 88 元,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD