因果推断新书在线读:Causal Inference-The Mixtape

发布时间:2021-08-24 阅读 543

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:牛坤在 (天津大学)
邮箱kunzainiu002@163.com


目录


1. 简介

美国 Baylor University 经济学教授 Scott Cunningham 认为,因果推理是利用理论和对制度细节的深入了解,来估计事件和选择对特定利益结果的影响。本推文介绍的便是 Scott Cunningham 于 2021 年初上市的书籍《Causal Inference: The Mixtape》 (出版社:Yale University Press)。

作者在其个人网站免费提供了该书的在线版:

这本书通俗易懂地介绍了识别社会科学中的因果关系的最新方法,是一本很实用的学习因果推理的书籍。对于整体写作风格,这本书在理论层面言简意赅,更多强调了方法应用。作者通过列举许多社会科学相关的因果推理的案例和参考论文,对实际案例的细节进行了详细的分析,并且展示了分析案例所借助的 Stata 和 R 软件具体操作程序。

对于基本内容,作者在回顾基本的因果推理概念、概率与回归概念的基础上,介绍了有向无环图 (Directed Acyclic Graphs,DAG)、潜在结果因果模型 (Potential Outcomes Causal Model)、匹配 (Matching) 以及断点回归 (Regression Discontinuity) 等因果推理工具和因果识别策略。其中,DAG 几乎出现在书籍中的每一章节。

相比于 2008 年出版的《Counterfactuals and Causal Inference: Methods and Principles for Social Research》,这本书不仅涵盖了很多案例,关注了工具变量法、断点回归法等准实验方法,还包括了经济学者目前关注的合成控制法。此外,书中提供了案例分析所需的数据、代码内容。因而,本科生、硕士生和刚入学的博士生如果想了解因果推理和学习诸如合成控制法这类的最新方法,可以参考这本书。

2. 内容介绍

首先,作者介绍了有关因果推理、概率与回归相关概念和理论,为新接触因果推理的读者更好地学习打好基础。

  • 第一章引言作者通过识别需求的价格弹性等一系列案例,介绍了因果推理的含义、如何区分相关性与因果关系等基本内容;
  • 第二章概率与回归回顾中,从基础的概率理论出发,回顾了随机过程、样本空间、统计独立性、事件和条件概率以及期望值、方差等统计定义。在此基础上,介绍了普通最小二乘法、方差分析理论、稳健标准误等统计数据分析的基本方法。

其次,为更好地识别因果关系,第三章至第五章介绍了因果推理的工具。

  • 第三章引入有向无环图 (DAG),这是一个有助于澄清变量之间的因果关系的强大的工具,讨论了后门标准和对撞机偏差两个概念。详细阅读这一章对后续阅读有很大的帮助;
  • 第四章讨论了潜在结果因果模型。因果效应可被定义为实际发生状态和反事实状态之间的比较,潜在结果表示法用反事实表示因果关系。书中定义了各种类型的因果效应:平均处理效应 (ATE)、干预组的平均处理效应 (ATT)、控制组的平均处理效应 (ATU)等。潜在结果因果模型成立依赖两个关键假设:一是强调被干预对象相互独立;二是在一定条件下,分配机制不会对潜在结果产生影响。潜在结果是由分配机制决定的,也十分强调匹配和倾向值分析对因果推理的重要性;
  • 第五章继续描述匹配和分配问题。贯穿这一章的概念是有条件独立假设 (CIA),通过学生分配问题表明处理分配是有条件的随机。当样本较少时,分配缺乏足够的数据,因而使得匹配和倾向值分析显得尤为重要。精确匹配和近似匹配均是因果推理的重要组成部分,倾向得分匹配作为一个工具,以使不同组别具有可比性。

最后,在剩下的第六章至第十章,此书理论结合案例,分别介绍了识别因果推理的策略,包括断点回归、工具变量、面板数据、差分、合成控制五个方法。

  • 断点回归 (Regression Discontinuity) 的设计围绕核心变量、临界值、处理组分配和结果本身之间的关系。精确断点回归是其中一种方法,使用一个连续的分数,通过任意选择一个临界值来分配处理组和控制组,比较高于和低于临界值的人来估计一种特定的平均值。作者借助一个案例 “复制一个流行的设计:接近的选举” 进行具体说明;
  • 工具变量 (Instrumental Variables) 设计可能是有史以来最重要的研究设计之一。作者从显示一系列因果效应的 DAG 开始进行分析,认为其包含了理解工具变量策略所需的所有信息。工具变量法通常用于解决遗漏变量偏差、测量误差等问题,两阶段最小二乘法是一个比较常用的方法,书中提供了一些数据,帮助读者更好地理解如何在实际数据中实现两阶段最小二乘法。与断点回归不同,工具变量法的识别假设有 5 个。这使得使用工具变量法时通常出现弱工具变量等问题,因而研究者很难找到满足所有 5 个条件的工具变量;
  • 面板数据 (Panel Data) 包含不同单位时间内重复测量的纵向数据。固定效应是一种估计因果效应有用的方法。只要处理和结果随时间变化,并且存在严格的外生性,那么固定效应将消除任何和所有未观测和观测的处理变量相关的不随时间变化的协变量。但是,这种方法不能处理随时间变化的、未观测到的异质性,而且当存在强反向因果路径时,面板方法是有偏的。作者通过回顾描述面板数据的 DAG 情况下,讨论一篇论文,然后在 R 和 Stata 中进行一个数据集的练习,很好的解释了上述问题;
  • 差分 (Difference-In-Differences) 已经成为定量社会科学中最受欢迎的研究设计之一。作者以简单的形式(同时处理一组单位)和更常见的形式(即在不同时间点处理一组单位)来解释差分方法。这一章的重点是确定估计处理效应所需的假设,包括通过事件研究提供平行趋势证据、安慰剂的重要性、有时间差异的双向固定效应等;
  • 合成控制 (Synthetic Control) 目前是一个活跃的研究领域,人们期望通过合成控制方法进行大量的证伪联系。使用合成控制法进行比较案例研究,必须通过基于安慰剂的推断找到确切的 p 值,检查预处理的匹配,调查用于匹配的协变量的平衡性,并通过安慰剂估计检验模型的有效性。书中通过 “监狱建设和黑人男性监狱” 的案例,展示了如何在 Stata 中估计合成控制方法。但是,还有很多相关问题书中没有给出解决方法。

以下是核心内容的基本架构,方便大家更好地了解这本书:

  • Introduction
    • What Is Causal Inference?
    • Do Not Confuse Correlation With Causality
    • Optimization Makes Everything Endogenous
    • Example: Identifying Price Elasticity of Demand
    • Conclusion
  • Probability and Regression Review
  • Directed Acyclic Graphs
    • Introduction to DAG Notation
  • Potential Outcomes Causal Model
    • Physical Randomization
    • Randomization Inference
    • Conclusion
  • Matching and Subclassification
    • Subclassification
    • Exact Matching
    • Approximate Matching
  • Regression Discontinuity
    • Huge Popularity of Regression Discontinuity
    • Estimation Using an RDD
    • Challenges to Identification
    • Replicating a Popular Design: The Close Election
    • Regression Kink Design
    • Conclusion
  • Instrumental Variables
    • History of Instrumental Variables: Father and Son
    • Intuition of Instrumental Variables
    • Homogeneous Treatment Effects
    • Parental Methamphetamine Abuse and Foster Care
    • The Problem of Weak Instruments
    • Heterogeneous Treatment Effects
    • Applications
    • Popular IV Designs
    • Conclusion
  • Panel Data
    • DAG Example
    • Estimation
    • Data Exercise: Survey of Adult Service Providers
    • Conclusion
  • Difference-in-Differences
    • John Snow’s Cholera Hypothesis
    • Estimation
    • Inference
    • Providing Evidence for Parallel Trends Through Event Studies and Parallel Leads
    • The Importance of Placebos in DD
    • Twoway Fixed Effects with Differential Timing
    • Conclusion
  • Synthetic Control
    • Introducing the Comparative Case Study
    • Prison Construction and Black Male Incarceration
  • Conclusion

3. 总结

因果推理是一个重要且有趣的领域,越来越受到社会科学研究者的关注。

  • 潜在结果因果模式提供了一种直观的方式来思考因果效应,该模型在理解使用异质的准实验研究设计来确定因果关系所需的假设方法非常有效;
  • 有向无环图对项目的设计阶段非常有用,在理论模型和对某些现象的理解以及识别所关心的因果效应的策略方面都受到关注;
  • 其它的识别因果效应的策略是目前微观经济学中最常见的。

但是,这本书省略了边际效应、部分标识等内容。

4. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 因果推断 书籍, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh