Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:王美甜 (东北财经大学)
邮箱:17866548843l@163.com
目录
Card (1995) 使用的数据来源于美国 1966 至 1981 年对青年男性的纵向调查数据 (NLSYM),对调查样本的描述性统计结果见下图所示。
统计结果显示:NLSYM 样本不是随机的对美国人口进行抽样的结果。NLSYM 样本中包含的位于南部地区的男性和黑人男性的比例较大。1976 年的子样本的统计结果显示:
作者先使用了 OLS 估计方法研究教育回报率问题。具体建立了线性回归模型,并在所有模型中都包括了线性的受教育水平连续型变量、工作年数及其二次项、种族哑变量、居住在南部地区与大都市区 (SMSA) 地区哑变量。回归结果如下图所示。
OLS 估计结果显示受教育年数的系数相当稳定,每增加一年教育,收入增加 7.3%-7.5%。由于有许多原因会带来受教育年数与随机误差项相关。例如遗漏能力变量、受教育年数存在测量误差,因此上述 OLS 结果可能会导致教育回报率的有偏估计。如果我们找到与受教育年数相关,但不与工资相关的变量作为受教育年数的工具变量,就可以对“真实”的教育回报率进行一致估计。
作者选取了 是否在大学附近成长 作为受教育年数的工具变量。其理由是那些没有在大学附近成长的学生,上大学的成本会很高。这些较高的成本会减少他们上大学,这个情况至少对于家庭收入低的学生是成立的。
为了证明是否在大学附近成长与受教育年数的相关性,作者将整个样本按照受教育年数的预测值分成了四份 (按照四分位数的值进行划分),然后在这四份样本中按照是否在大学附近成长进行分组,并计算这四份样本的受教育年数观察值的平均值。计算结果如下图所示:
从上图的计算结果可以看到,在每一个受教育年数预测值的四分位数上,在大学附近成长的样本的受教育年数都大于未在大学附近成长的样本,可以推测是否在大学附近成长与受教育年数相关。具体来看,
使用 是否在大学附近成长 作为受教育年数的工具变量,并用 2SLS 法建立回归方程。下表中呈现了一系列约减形式的受教育年数和工资方程,以及工资的结构方程。其中,
从上表的结果中可以看到,不论模型中是否包括家庭背景方面的变量,不论将工作年数及其平方项视为外生或内生变量,教育回报率的结果是十分相近的,估计值介于 0.12-0.14 之间。这些值比 OLS 估计结果高出 50-60%,与已有的一些文献结果是类似的。但是 IV 估计的标准误较大,我们不能拒绝这个假设:IV 与 OLS 估计值的差别是由抽样误差带来的。
在大学附近成长对受教育年数具有正效应 (增加 0.32-0.38 年),对工资也具有正效应 (增加 4.2%-4.8%),是因为模型 (3) 和 (4) 中没有受教育年数变量。
从上图中可以看出,是否在大学附近成长对于家庭受教育背景较差的学生的教育回报率的影响是较大的。鉴于此,作者选取 在大学附近成长与家庭受教育背景较差的交乘项 作为受教育年数的工具变量,并检验是否在大学附近成长与工资的相关性,建立受教育年数与工资的约减方程、工资的结构方程进行 OLS 与 IV 估计。其中,家庭受教育背景较差变量的定义是父亲和母亲都没有高中毕业。回归结果如下表所示:
在以上回归结果中,
上述结果显示,不论如何将家庭受教育背景进行分类,不论使用交乘项作为工具变量还是仅使用是否在大学附近成长作为工具变量,估计结果是相近的。并且,是否在大学附近成长对工资的影响效果是很小的并且不显著,证明了工具变量的外生性。
最后,我们对 Card (2015) 这篇文献在工具变量方面的基本思想进行总结:
如下图所示,我们在运用 IV 估计法时,工具变量
下图中,
即
首先,我们用 OLS 做
将教育回报这一案例应用到上图,即可得到如下关系图:
Card (1995) 选用是否在大学附近生长作为教育的工具变量,但是青年男性的不可观测因素可能会同时影响他们的教育年数以及收入。例如,那些来自抚育家庭的青年男性可能更倾向于上大学,因为家庭可以负担他们上大学的成本。而这些人获得高收入可能是由于家庭关系而非教育本身。这种混合影响导致我们得到的
基于以上分析,Adams (2021) 提出两种检验工具变量有效性的方法:第一,将青年男性分为“住在大学附近”和“不住在大学附近”两组,分别对教育、经验等进行回归判断 IV 的有效性。第二,通过对两个工具变量回归结果的比较判断 IV 的有效性。
我们将青年男性分为“住在大学附近”和“不住在大学附近”两组,分别进行回归,结果如下表所示。我们可以看出在大学附近成长的青年男性往往具有更多的教育和更少的工作经验,但是他们更可能是非黑人、更可能住在城市,而非黑人和住在市区都与收入存在正相关关系。这说明“距大学的距离”并不是一个好的工具变量。
假设我们有两个工具变量:是否在大学附近成长 (
作者利用矩阵代数方法,在两种不同工具变量下估计教育回报率,结果显示在两种 IV 下估计结果差值均值为 0.68,且在 90% 的置信区间包括 0。因此我们不能拒绝原假设,即不能拒绝“距离 4 年制大学的距离”和“14 岁时父母陪伴”均是有效工具变量的假设。
但是这也不能够说明二者均是有效的工具变量,因为可能存在其他情况证明其中一个或两个工具变量是无效的。
在上一小节我们已经提到,工具变量法要求工具变量对
就教育回报这一问题,我们假设每个人从政策中获得相同的效应是不合理的,即这种因果识别可能存在异质性。此时工具变量法失效,但我们可以采用局部平均处理效应 (LATE)。如果我们放弃“工具变量对
假设样本中有四类人群:
居住地距离大学的距离可以视为上大学的成本,当成本发生变化,需求也会变化。在以上四类人群中只有 Compliers 会因上学成本变化而改变需求。
根据总期望法则可以得出每个类型 (C、A、N、D) 的意向分析效应:
基于工具变量和类型我们可以计算出平均产出:
由于
基于上式可以得到:
我们可以看出 Always Taker 和 Never Taker 的意向分析回归结果为 0,由于存在单调性假设,故不存在 Defiers。这就将意向分析简化为只包括 Compliers 这一种类型:
将上式转化为 LATE 估计量:
作者分别将“是否在大学附近成长”和“14 岁时父母是否陪伴”作为工具变量,分别运用 LATE 估计教育对收入的影响。当“是否在大学附近成长”做 IV 时,教育每增加一年,收入会提升 0.32%;当“14 岁时父母是否陪伴” 做 IV 时,教育每增加一年,收入会提升 0.18%。
LATE 的估计结果说明教育回报是具有异质性的。那些因为距离大学近而上大学的人具有更高的教育回报率,而那些因为父母陪伴而上大学的人具有更低的教育回报率。
Adams (2021) 对用 OLS、IV、LATE 三种方法研究教育回报问题做如下总结:
作者认为当利用工具变量处理内生性问题时,如果工具变量无效,可能会导致估计结果偏误。当工具变量与一阶段不可观察的随机干扰项相关时,将会导致工具变量无效。作者提出如果选择一个工具变量的代理变量 (proxy),不仅可以部分识别局部平均处理效应,而且可以识别 complier 的潜在收入分布。作者就 LATE 提出 3 个假设:
数据来源:本文使用的数据来源于美国 1966 至 1981 年间对青年男性的纵向调查数据 (NLSYM)。被解释变量
作者认为该数据满足 LATE 的 REL 相关性假设以及 MON 单调性假设,但是未必满足 ST 假设。为证明 LATE 的 REL 相关性假设,作者就“是否上大学”对“是否在 4 年制大学附近成长”以及“14 岁时父母是否在身边陪伴”做线性回归和 Logit 回归,回归结果如下表所示。从表中可以看出在两种方法下,“在 4 年制大学附近成长”以及“14 岁时父母在身边陪伴”都与上大学显著正相关,相关性成立。
同时,上大学的需求不会随着上大学成本增加而增加,这说明 MON 单调性成立。然而,ST 假设要求
基于以上分析,我们得出“距大学的距离”不是一个有效的工具变量。作者将“14 岁时父母是否在身边陪伴”作为“是否在 4 年制大学附近成长”的代理变量,并进行 2SLS 回归分析,回归结果如下表所示:
从表中我们可以看出两阶段最小二乘估计量为 2.2737,LATE 的置信集为
以上分析将“是否在大学附近成长”作为教育的工具变量,该工具变量是可观测的。在该部分作者将“上大学的成本”作为教育的工具变量
从上表我们可以看出,对于那些因为上大学成本低而上大学的人来说,大学学位可以使平均工资增加 15%-30%,这一结果与可以为旨在减少大学教育成本的政策提供支持。
值得注意的是,当我们分别将“距大学距离”以及“上大学成本”作为工具变量时,计算的 LATE 边界是不同的。将“距大学的距离”作为工具变量时,LATE 上确界和下确界分别为
作者在本文提出一种新的识别策略——当工具变量与随机干扰项相关,进而与被解释变量
作者采用 NLSYM 样本数据,将距离大学距离作为上大学成本的代理变量,估计 Compliers 子样本大学教育对于收入的影响。研究发现,大学学位对于收入具有显著正向影响,对于那些仅仅因为上大学成本低而获得大学学位的人来说,大学学位会使他们的小时收入增加 15%-30%。
在解决内生性问题上,工具变量法是一个非常受欢迎的手段。但是正如推文题目所言——找个 IV 不易呀!如果在模型中*引入一个新的工具变量
相对于相关性来说,工具变量的外生性很难满足。如果外生性难以满足,我们便认为该工具变量为“无效工具变量”。那么,当工具变量无效时,IV 估计法就不能用了吗?显然不是,此时我们无法衡量平均处理效应,但在某些情况下,我们可以将估计量解释为样本子集 (局部) 平均处理效应 (LATE)。LATE 允许放松“
另外,如果工具变量是一个不可观测变量怎么办?比如上大学成本包括经济成本、机会成本、心理成本等,将上大学的成本作为教育的工具变量,上大学的成本不能被准确观测到。Kédagni (2021) 提出只要能够找到该工具变量的代理变量
Note:产生如下推文列表的 Stata 命令为:
lianxh 工具变量, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh