温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装命令如下:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
⛳ Stata 系列推文:
作者:秦范 (四川大学)
邮箱:qf13032861571@163.com
目录
「工具变量」是解决内生性问题的重要方法,但要更好发挥工具变量的作用,关键在于找到好的工具变量。为此,本文将进一步巩固介绍工具变量的基本思路,并在此基础上,通过工具变量的经典案例介绍,以为读者寻找工具变量提供启迪。
工具变量是解决内生性问题的重要方法之一,那么什么是内生性问题呢?
由上文可知,内生性问题本质上是误差项中存在与内生变量相关的因素。既然无法通过增加控制变量的方法将这些因素控制,那我们只能将其从误差项中剔除。如何剔除呢?
假设在模型
以教育回报方程为例,在研究受教育程度对工资水平的影响时,通常会遗漏重要的解释变量 “个人能力”,以致于估计出来的系数包含了个人能力对工资的影响。由于 “住在大学附近” 并不能直接影响工资水平,且和误差项中的 “个人能力” 不相关,但是可能会影响个人是否上大学,因此可以用 “住在大学附近” 作为工具变量替换 “受教育程度”。
现在我们来简单总结一下工具变量的定义。假定有一个变量
一个内生变量有一个工具变量:工具变量估计量 (IV estimator)。考虑模型
此时,用样本数据估计 (矩估计) 上式得到:
一个内生变量有多个工具变量:两阶段最小二乘估计量 (2SLS estimators)。如果一个内生变量有多个工具变量,则每个工具变量都可单独用于估计,工具变量的线性组合也可用于估计。不过,采用所有外生变量的线性组合作为内生变量的工具变量时,估计结果最有效。比如,原模型中有一个内生变量
假定还有两个被排斥在上述模型之外的工具变量
可以通过 OLS 估计如下模型,估计出
再将估计后的
多个内生变量。如果有多个内生变量,则被排斥在模型之外的外生变量数至少要与原方程中的内生变量数一样多,这又被称作方程可识别的阶条件 (order condition)。
使用的 IV 真的有效吗?比如 “是否住在大学附近” 作为 “受教育程度” 的工具变量,来解释受教育程度对工资水平的影响。在很大程度上,“住在大学附近” 的样本更可能是家庭经济情况较好、以及父母受教育程度都较高,从而也更注重孩子的教育和培养等,这也可能影响工资水平。因此,试图采用工具变量法解决内生性问题,还需要进一步做相关的工具变量检验,具体包括外生性检验、相关性检验、以及内生性检验。可参考以下相关推文:
工具变量要满足外生性和相关性两个条件,因此寻找工具变量也一般从满足这两个条件出发。常见的寻找工具变量一般思路如下 (根据陈云松 (2012),计量经济圈推文「我的 “工具变量” 走丢了,寻找工具变量思路手册」整理):
接下来,我们基于寻找工具变量的一般思路,介绍一些经典的工具变量案例。以下内容主要参考陈云松 (2012) 和 PhDHub 推文「有趣的工具变量」,并由编者补充整理。
案例一:识别美国劳动市场上移民的网络效应,即墨西哥移民规模是否影响个体就业选择、以及从事非农工作并获得更高收入。但存在以下内生性问题,如移民网络规模可能受到美国劳动市场中不可观测的冲击的影响,正向冲击会吸引更多移民,使得网络效应高估,反之造成网络效应低估。为此,可能的工具变量为移民来源社区的降雨量,主要基于以下考虑:
参考资料:Munshi, K. (2003). Networks in the modern economy: Mexican migrants in the US labor market. The Quarterly Journal of Economics, 118(2), 549-599. -PDF-
案例二:经济增长与国内冲突。但存在以下内生性问题,如政府机构质量可能对经济增长和国内冲突都有影响。为此,可能的工具变量为降雨量,主要基于以下考虑:
参考资料:Miguel E, Satyanath S, Sergenti E. Economic shocks and civil conflict: An instrumental variables approach[J]. Journal of political Economy, 2004, 112(4): 725-753. -PDF-
案例三:儿童看电视的时长对自闭症的影响。可能存在反向因果问题,如儿童长时间看电视更容易有注意缺陷多动障碍等问题,从而提高患自闭症的概率;但有自闭倾向的儿童一旦看电视可能更难以停止看电视,从而有自闭倾向的儿童更可能长时间看电视。降雨量作为工具变量,主要基于以下考虑:
参考资料:
Waldman, M., Nicholson, S., & Adilov, N. (2006). Does television cause autism? (No. w12632). National Bureau of Economic Research. -PDF-
Waldman, M., Nicholson, S., Adilov, N., & Williams, J. (2008). Autism prevalence and precipitation rates in California, Oregon, and Washington counties. Archives of pediatrics & adolescent medicine, 162(11), 1026-1034. -PDF-
知乎文章:老姚专栏 | 工具变量思维
案例一:空气污染对体重和肥胖的影响。可能的内生性问题是,空气污染物是经济活动的副产品,存在某些因素同时影响空气污染程度和肥胖,如收入等。逆温现象作为工具变量,主要基于以下考虑:
参考资料:
案例二:空气污染对婴儿死亡率影响。可能存在内生性问题,更富有的城市空气污染程度相对更低,因此即使空气污染,婴儿死亡率也更低。
参考资料:Arceo E, Hanna R, Oliva P. Does the effect of pollution on infant mortality differ between developing and developed countries? Evidence from Mexico City[J]. The Economic Journal, 2016, 126(591): 257-280. -PDF-+-Replication
案例三:空气污染对学生出勤的影响。可能存在内生性问题,一是测量误差,文章使用周边地区空气污染情况作为每个学校的空气污染程度。广州市 12 个区中有 11 个公共污染监测点,所以污染物水平可能因为较少且零星分布的监测点而存在测量误差。模型中加入固定效应可能加大这种典型的测量误差,使得 OLS 估计量向下偏误。二是遗漏变量,如化工厂爆炸等突发灾难可能会提升空气污染水平,同时增加学校缺勤率。
参考资料:Chen S, Guo C, Huang X. Air pollution, student health, and school absences: Evidence from China[J]. Journal of Environmental Economics and Management, 2018, 92: 465-497. -PDF-
案例四:环境污染对心里健康影响。可能存在的内生性问题,一是遗漏变量,如收入、当地经济条件等因素会同时影响空气污染水平和心理健康。二是反向因果,心理健康影响劳动生产力,进而影响经济活动中污染物的排放。三是测量误差,空气质量是定点监测的,可能存在测量误差或人力操纵,导致估计系数向下偏误。
参考资料:Chen S, Oliva P, Zhang P. Air pollution and mental health: evidence from China[R]. National Bureau of Economic Research, 2018. -PDF-
案例五:环境污染对交通事故影响。可能存在的内生性问题,遗漏结构性 (如地区人口密度,道路遍布程度、类型、限速规定等)、季节性或天气相关的因素,而这些因素可能会同时影响交通事故和空气污染程度。
参考资料:Sager L. Estimating the effect of air pollution on road safety using atmospheric temperature inversions[J]. Journal of Environmental Economics and Management, 2019, 98: 102250. -PDF-
案例一:空气污染与犯罪活动。可能存在内生性问题,如遗漏经济活动等同时影响空气污染和犯罪活动的变量。风向作为工具变量,主要基于以下考虑:
参考资料:Herrnstadt E, Muehlegger E. Air pollution and criminal activity: Evidence from Chicago microdata[R]. National Bureau of economic research, 2015. -PDF-
案例二:空气污染与医疗成本。可能存在的内生性问题,一是遗漏变量,例如遗漏同时影响污染水平和消费者支出行为的不可观测因素 (如经济条件),以及应对空气污染的回避行为。二是测量误差,居民污染暴露程度应该根据人口加权计算当地污染暴露度,但监测点零星分散难以根据人口分布加权,从而使用空气质量监测数据作为污染暴露程度的代理变量会造成测量误差,并导致估计系数下偏。利用风的特征计算的 PM2.5 浓度作为工具变量,主要基于以下考虑:
参考资料:Barwick P J, Li S, Rao D, et al. The morbidity cost of air pollution: evidence from consumer spending in China[R]. National Bureau of Economic Research, 2018. -PDF-
案例三:空气污染与失眠。可能存在内生性问题,一是测量误差,空气质量指标数据并非个体空气污染暴露度,比如个体还可能通过关窗、使用空气清新器等降低个体污染暴露度,可能导致估计系数下偏。二是遗漏变量。风向作为工具变量,主要基于以下考虑:
参考资料:Heyes A, Zhu M. Air pollution as a cause of sleeplessness: Social media evidence from a panel of Chinese cities[J]. Journal of Environmental Economics and Management, 2019, 98: 102247. -PDF-
案例一:城市空气污染程度是否影响流动人口在该城市就业。可能的内生性问题是,遗漏不可观测但同时影响城市空气污染和流动人口迁入的变量。空气流通系数作为工具变量,主要基于以下考虑:
参考资料:
案例一:教育对个人收入的影响。可能存在遗漏变量问题,如个人能力。是否在大学附近成长作为工具变量,主要基于以下考虑:
参考资料:
案例二:治疗频率与患急性心肌梗塞的年老病人死亡率。可能存在遗漏变量问题,如其它疾病、患病严重度等可能影响病人是否选择接受治疗的因素。采用病人到心脏病医院的距离作为工具变量,主要基于以下考虑:
参考资料:McClellan, M., McNeil, B. J., & Newhouse, J. P. (1994). Does more intensive treatment of acute myocardial infarction in the elderly reduce mortality?: analysis using instrumental variables. Jama, 272(11), 859-866. -PDF-
案例三:国际贸易参与度对经济增长影响。可能存在反向因果问题,如一国经济水平也会影响该国国际贸易参与度。采用一国与其他国家的地理距离作为工具变量,主要基于以下考虑:
参考资料:Frankel, J. A., & Romer, D. H. (1999). Does trade cause growth?. American economic review, 89(3), 379-399. -PDF-
案例四:城市贸易开放度对经济增长影响。可能存在以下内生性问题,一是反向因果问题,如城市经济增长可能提升城市贸易;二是测量误差,如出口贸易量的低报造成测量误差。采用与上海或香港的距离作为工具变量,主要基于以下考虑:
参考资料:Wei, S. J., & Wu, Y. (2001). Globalization and inequality: Evidence from within China (No. w8611). National Bureau of Economic Research. -PDF-
案例五:奴隶贸易密集度对信任的影响。可能存在样本自选择问题,如本身不太信任他人更可能进行奴隶贸易,其种族的后裔也更可能不信任他人。采用奴隶贸易时期种族距海岸线的最近距离作为工具变量,主要基于以下考虑:
参考资料:
案例六:科举制度对当代人力资本水平的影响。可能存在遗漏变量问题,如有更多进士的地级市可能具有自然或基因的不可观测的禀赋因素,进而同时影响历史上的进士密度和当今的人力资本水平。采用各地级市到最近印刷原材料 (松木和竹子) 产地的平均河流距离作为工具变量,主要基于以下考虑:
参考资料:
案例一:邻里区隔对个体教育、就业等影响。可能存在以下内生性问题,一是反向因果,如区隔可能是糟糕的经济表现的结果而非其原因。二是样本自选择,如选择居住在更加区隔的城市的个体可能是更不成功的。采用河流数量作为工具变量,主要基于以下考虑:
参考资料:Cutler, D. M., & Glaeser, E. L. (1997). Are ghettos good or bad?. The Quarterly Journal of Economics, 112(3), 827-872. -PDF-
案例二:学区可选择度对学校效率的影响。可能存在内生性问题:一是遗漏变量,如民族异质性更大学区需求更多,如果民族异质性不能完全控制,且对学校效率有直接影响,则会造成偏误。二是反向因果,学校效率可能也会影响可观测的学区可选择度。比如一个教育市场中可能有一个学区管理系统效率很高,则其他校区可能会与它合并,从而减少可观测的学区可选择度。采用小河数量作为工具变量,主要基于以下考虑:
参考资料:Hoxby C M. Does competition among public schools benefit students and taxpayers?[J]. American Economic Review, 2000, 90(5): 1209-1238. -PDF-
案例三:清末废除科举对革命参与的影响。可能存遗漏变量问题,如在科举废除后,政府仍会任免官员,一些遗漏变量可能既影响任职,又与科举名额正相关。采用小河数量与总长度之比作为工具变量,主要基于以下考虑:
参考资料:Bai Y, Jia R. Social Mobility and Revolution: The Impact of the Abolition of China’s Civil Service Exam System[R]. working paper, 2014. -PDF-
案例一:城镇持高中以上学历且同一出生序列的男性占比对某出生序列的女性是否高中毕业的影响。可能存在内生性问题,一是遗漏变量,如同一班级学生的父母平均受教育水平可能影响班级的学习表现。二是反向因果,如一些同学可能会帮助另一些同学,则减少老师的时间并用于帮助更需要帮助的同学,由此男性高中毕业情况和女性高中毕业情况可能存在联立相关。采用该城镇是否受地震影响并免除男性服兵役义务作为工具变量,主要基于以下考虑:
参考资料:Cipollone, P., & Rosolia, A. (2007). Social interactions in high school: Lessons from an earthquake. American Economic Review, 97(3), 948-965. -PDF-
案例二:同村打工网对农民工城市打工日均收入影响。可能存在的内生性问题,一是遗漏变量,如作者所用数据没有提供农民工所在城市的信息,打工所在地的特征以及一些没有观测到的村庄特征可能同时影响打工收入和村庄外出打工网的规模。二是反向因果,如工资收入越高,可能导致外出打工人数更多。三是样本自选择,如打工决策由可观测特征 (家庭劳动力数量、性别、年龄等) 和不可观测因素 (性别、能力等)决定,村庄内能力更强的人可能更倾向于外出打工。采用农民工来源村庄的自然灾害强度 (本村农业收入比正常年份减少的比例) 作为工具变量,主要基于以下考虑:
参考资料:陈云松. 农民工收入与村庄网络——基于多重模型识别策略的因果效应分析[J]. 社会, 2012, 32(04):68-92. -Link-
案例一:茶叶价值 (女性收入占比的代理变量) 对县男性人口占比的影响。可能存在内生性问题,一是测量误差,如使用 1997 年农业数据作为早期农业条件的代理变量可能导致估计下偏。二是遗漏变量,如家庭对女孩的偏好可能导致家庭更愿意种植茶叶。采用县平均坡度作为工具变量,主要基于以下考虑:
参考资料:
案例一:政府效率对经济增长率的影响。采用语言分解指数 (衡量总人口中任意抽取两个人属于不同语言文化群体的概率) 作为工具变量,主要基于以下考虑:
参考资料:Mauro P. Corruption and growth[J]. The quarterly journal of economics, 1995, 110(3): 681-712. -PDF-
案例二:社会基础设施对人均产出影响。采用受西欧影响程度 (各国到赤道的距离、当下本国以西欧语言为母语的占比) 作为工具变量,主要基于以下考虑:
参考资料:Hall, R. E., & Jones, C. I. (1999). Why do some countries produce so much more output per worker than others?. The quarterly journal of economics, 114(1), 83-116. -PDF-
案例三:制度因素对人均收入的影响。可能存在的内生性问题,一是反向因果,如更富裕的国家倾向于建立更好的制度;二是遗漏变量,如存在共同影响制度和人均收入的因素;三是测量误差,如对机构变量的测量存在误差。采用殖民时期欧洲定居者的死亡率作为制度变量的工具变量,主要基于以下考虑:
参考资料:
案例四:各地产权保护制度对经济增长的影响。采用中国 1919 年初级小学注册人数占当地人口比例作为工具变量,主要基于以下考虑:
参考资料:
案例五:城市营商软环境对城市经济发展影响。采用各城市开埠通商历史作为工具变量,主要基于以下考虑:
外生性:当前经济绩效对各城市开埠通商历史没有相关性,将开埠通商历史和营商软环境同时作为解释变量与当前的经济绩效进行回归,开埠通商历史的回归系数极不显著。作者通过检验 “开埠通商历史
相关性:开埠通商历史越长, 则开埠时间越早, 受西方的影响就越早越深,现代工商业也孕育得更早,从而具有更好的营商软环境。
参考资料:董志强, 魏下海, 汤灿晴. 制度软环境与经济发展——基于 30 个大城市营商环境的经验研究[J].管理世界,2012(04):9-20. -Link-
案例六:方言种类对城市圈市场分割程度。采用当地戏曲种类作为工具变量,主要基于以下考虑:
参考资料:丁从明, 吉振霖, 雷雨, 梁甄桥. 方言多样性与市场一体化:基于城市圈的视角[J]. 经济研究, 2018, 53(11):148-164. -Link-
案例一:教育对工资的影响。采用出生季度作为工具变量,主要基于以下考虑:
参考资料:Angrist J D, Krueger A B. Does compulsory school attendance affect schooling and earnings? [J]. The Quarterly Journal of Economics, 1991, 106(4): 979-1014.-PDF-
案例二:非婚生育对经济 (劳动供给、贫困、福利水平) 的影响。采用非婚生育双胞胎作为工具变量,主要基于以下考虑,即相比于非婚生育一胎,非婚生育双胞胎是随机决定,且直接影响了非婚生育情况。从而可以通过对比非婚生育一胎和非婚生育双胞胎的样本,得出生育一个未计划的非婚孩子对母亲的经济结果的因果效应。
参考资料:Bronars S G, Grogger J. The economic consequences of unwed motherhood: Using twin births as a natural experiment[J]. The American Economic Review, 1994: 1141-1156. -PDF-
案例三:家庭中的孩子数量对劳动供给影响。可能存在同时影响生育能力和劳动供给的遗漏变量。采用头两胎的性别组合作为工具变量,主要基于以下考虑,即出于人类生育行为中 “儿女双全” 偏好,头两胎如果是双子或双女,则生育第三胎的可能性很大,进而增加子女数。
参考资料:Angrist, J. D., & Evans, W. N. (1996). Children and their parents' labor supply: Evidence from exogenous variation in family size (No. w5778). National bureau of economic research. -PDF-
案例四:邻里其他母亲就业对单个母亲就业的影响。采用邻里其他母亲头两个子女的性别组合作为工具变量,主要基于以下考虑,即头两个孩子性别不同的母亲相比于性别相同的母亲,参与劳动力市场的可能性更高。可能的原因在于,头两个孩子性别相同,则抚养成本降低,使就业显得不那么紧迫;此外,头两个孩子的性别还会通过影响最终生育的孩子数量影响母亲就业情况,如果性别相同,母亲更可能增加生育的孩子数量。因此,邻里其他母亲头两个子女的性别组合会影响邻里母亲的平均就业情况。
参考资料:Maurin, E., & Moschion, J. (2009). The social multiplier and labor market participation of mothers. American Economic Journal: Applied Economics, 1(1), 251-72. -PDF-+-Replication-
案例一:是否服兵役对收入的影响。采用入伍抽签号码作为工具变量,主要基于以下考虑:一是外生性,即抽签号的产生完全随机。越南战争期间,美国青年服兵役采取基于生日的抽签形式,决定抽签号码小于一定 “阈值” 则参加体检服兵役,大于阈值则免于兵役;二是相关性,即抽签号直接影响是否服兵役,甚至进而影响后期教育水平。
参考资料:
案例二:班级规模对学生成绩的影响,采用迈蒙尼德 (Maimonides) 规则下的本地招生人数作为工具变量,主要基于以下考虑,即根据迈蒙尼德规则,凡是班级人数超过 40 的就会被分裂为两个小班,因此,招生人数和班级规模之间就存在一个紧密的非线性关系。
参考资料:Angrist J D, Lavy V. Using Maimonides' rule to estimate the effect of class size on scholastic achievement[J]. The Quarterly journal of economics, 1999, 114(2): 533-575. -PDF-
案例三:班级平均成绩对个体学业成绩的影响。采用班级中曾经参与过 “小班实验” 的人数比例作为工具变量,主要原因是 STAR 项目 (小班实验) 旨在缩减班级规模,是随机进行的,学校之前从各个班级随机抽人去组成小班,因此外生性可以保证。而小班教学提高了这部分学生的成绩,故而对班级整体表现也必然有影响。
参考资料:Boozer, M., & Cacciola, S. E. (2001). Inside the'Black Box'of Project STAR: Estimation of peer effects using experimental data. Available at SSRN 277009. -PDF-
案例四:受教育年数对工资的影响。采用 1974 年的年龄与区域内项目密度的交乘项 (大规模小学建造项目的时空差异,项目密度为每 1000 个孩子新建小学数) 作为工具变量,主要基于以下考虑,一是外生性,大规模建造小学的项目对工资水平没有直接影响。同时,作者控制了可能影响项目实施的学生注册率、生活用水和环境卫生项目等变量,尽可能保证项目的实施免受随时间变化的地区特殊性的遗漏变量的影响。二是相关性,大规模建造小学的项目影响教育水平。
参考资料:Duflo E. Schooling and labor market consequences of school construction in Indonesia: Evidence from an unusual policy experiment[J]. American economic review, 2001, 91(4): 795-813. -PDF-
案例五:对照组平均入学率对孩子是否入学影响。采用学校参与 PROGRESA 项目的学生比例作为工具变量,主要基于以下考虑,一是外生性,PROGRESA 项目由墨西哥政府 1997 年发起,所选样本完全随机;二是相关性,该项目给边远地区的边缘家庭生活补助以支撑孩子上学,有助于提高入学率。
参考资料:Bobonis, G. J., & Finan, F. (2009). Neighborhood peer effects in secondary school enrollment decisions. The Review of Economics and Statistics, 91(4), 695-716. -PDF-
案例一:孕妇吸烟对婴儿出生体重的影响。可能存在样本自选择问题,如吸烟的女性更可能有不好的习惯,从而影响她们的长期健康水平。采用州香烟税率作为工具变量,主要基于以下考虑,即州香烟税率提升香烟价格,从而减少孕妇吸烟。
参考资料:Evans, W. N., & Ringel, J. S. (1999). Can higher cigarette taxes improve birth outcomes?. Journal of public Economics, 72(1), 135-154. -PDF-
案例二:高速公路网对地区经济发展的影响。可能存在内生性问题是,高速公路网的铺设并不随机。“高速公路网” 计划制定过程、描述性统计指标都显示被纳入高速公路网的城市往往政治地位重要或经济繁荣。采用边缘城市是否处于最小生成树上作为工具变量,主要基于以下考虑:
参考资料:Faber, B. (2014). Trade integration, market size, and industrialization: evidence from China's National Trunk Highway System. Review of Economic Studies, 81(3), 1046-1070. -PDF-
Note:产生如下推文列表的 Stata 命令为:
lianxh 工具变量 IV
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh