连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
目录
最近十年中,各类因果推断方法层出不穷。令人欣喜的同时,也让很多人无所适从。虽然借助 Stata,R,Python 等软件很容易「跑出」结果,但很多人应该都经历过如下「囧境」:
csdid
,drdid
, jwdid
, flexpaneldid
, did_multiplegt
, 还是 wooldid
?有人会说:哪个「好」用哪个? 然而,此时会遭遇导师和审稿人的盘问:为什么用 A,而不用 B?A 为什么好?识别的假设条件是什么?有什么缺陷?ssc install wooldid
安装了 wooldid
命令,但除了会照猫画虎地执行帮助文件 (help wooldid
) 中 Example 部分给出的例子,其它基本上看不懂,更不用说伍老兄的原文了 (Wooldridge, 2021)。结果是:纵然手头有好工具,有程序包,有范例代码,但就是没有底气去用它,因为自己预感到在论文中写不清楚,也担心在组会或答辩中「下不了台」。此种情境下,并非我们不努力,而是有一种「有劲没处使」的无力感。事实上,上述问题的根源在于我们没有清晰地理解「基本概念」,比如条件期望,条件独立,无偏性以及 FWL 定理 等。一旦掌握了这些基本知识,后续的 Lasso 方法,双重机器学习 等听起来很高深的东西都不再困难,因为它们都是基础知识和理论的组合和延伸而已。庄子所言「水之积也不厚,则其负大舟也无力」也正是这个意思。
至于 Top 期刊中的论文,越来越强调清晰的识别,而识别策略与计量工具密不可分,如果无法清晰理解每种计量方法的识别假设,那么就会误用甚至滥用计量模型。同时,想要规范地进行实证分析分析,并在此基础上合理使用工具来表达想法、讲好故事,同样也需要对原理和技术细节的深入理解,如方法选取、模型设定、标准误的处理等。
为此,本次课程将不以具体实证方法为主要目的,而是通过对基础的巩固,以新的视角重新审视我们之前学习和使用的方法,以期化解上文提到的各种「囧境」。
「自信」源于对问题的深刻理解,外加努力。有了自信心和基础储备,就能自己去「拱」那些更难的东西了,此时「努力」才会有成效。
司继春,上海财经大学博士,目前任教于上海对外经贸大学统计与信息学院,主要研究领域为微观计量经济学、产业组织理论,成果见诸 Journal of Business and Economic Statistics、《中国人口科学》、《系统工程理论与实践》等期刊。司老师专长于机器学习,尤其是基于机器学习的因果推断前沿方法,有多个大型数据分析项目的实战经验。业余时间里,司老师也经常在知乎上耐心作答,用通俗的语言普及统计和计量知识。他的知乎专栏名为「慧航」,关注者逾 31w,获赞超过 17w。他总能抽丝剥茧,把复杂的问题讲得清清楚楚。
本课程主要分为六个模块:
T1. 条件期望
条件期望(conditional expectation)这一概念在几乎所有数据科学中都占有非常重要的位置。本质上,条件期望即均方误差意义下的最优预测,无论是经典的 OLS 还是最近流行的机器学习方法,本质上都可以看作是对条件期望的逼近。更重要的是,很多计量经济学方法和工具是使用条件期望这一工具表达和推导的,为此掌握好条件期望这一工具是深刻理解诸多计量经济学方法的前提。本节将从条件期望的定义出发,详细介绍条件期望的通俗理解以及各种性质,并以简单的例子帮助大家掌握条件期望这一「语言」,让部分理论文章不再是「天书」。主要内容包括:
Cer2022
, Chap 1, 2Hansen2021
, Chap 2
T2. 线性回归与拟合
进一步,我们从条件期望的角度引入最常见的拟合和预测工具:OLS。我们首先从条件期望与 OLS 之间的关系入手,逐渐引入 OLS 的统计性质,并讨论条件期望估计中的函数形式问题。最后,我们还将从预测的角度讨论模型选择的一般标准,为机器学习和因果推断奠定良好的统计工具基础。最后,权重通常也是实证中常见的策略,我们也将讨论回归中权重的使用,并在加权最小二乘的基础上引入非参数和半参数回归。主要内容包括:
Cer2022
, Chap 1, 2MHE2018
, Chap 3
T3. 反事实框架:偏误来源、影响及应对
因果推断是计量经济学的核心内容之一,而因果是通过反事实的框架定义的。本节将回顾因果推断的基础内容,包括 Rubin 因果模型以及其中常见的定义,并分析在估计平均处理效应、处理组平均处理效应等问题时可能存在的偏差。最后,我们将介绍在无混淆分配假设下的识别方法和相应的估计方法。我们将充分利用条件期望这一工具对处理效应的识别进行分析,同时利用拟合部分的内容详细介绍如何在识别的基础上进行更进一步的估计。主要内容包括:
Cer2022
, Chap 1, 2MHE2018
, Chap 2
T4. 线性回归:因果推断视角
实证中,基于线性回归的因果推断尤为流行,然而在使用时往往需要注意大量细节,这主要是由于我们此时使用线性回归不再以预测为目的,而是以解释和因果推断为目的。为此,本节主要结合以上介绍的因果推断基本概念,重新审视线性回归,并介绍在无混淆分配假设下控制变量的选择、固定效应的控制等问题,以及如何使用线性回归建模处理效应异质性等问题。主要内容包括:
Cer2022
, Chap 1MHE2018
, Chap 2
T5. 面板数据
面板数据在当前的实证研究中是被最广泛使用的数据形式,当前理论文献中关于面板数据中因果效应的识别和估计问题也是研究热点之一。本节将主要从面板数据的基础概念出发,包括面板数据中各种外生性假定、模型设定的假设以及模型之间的关系进行系统梳理,从而能够熟练掌握经典的面板数据处理方法。此外,我们还将综合使用以上条件期望、因果推断的基础内容,从理论的层面重温双重差分模型,并进一步介绍双重差分模型等新进展的识别理论和估计方法。主要内容包括:
Hansen2021
, Chap 17, 18Cer2022
, Chap 5
T6. 内生性:因果推断下的工具变量
当无混淆分配假设不满足时,就出现了内生性问题,而工具变量是处理内生性问题的一个常见方法。然而在处理效应识别和估计的背景下,很多时候工具变量的使用需要更多的假设。本节主要讨论在因果推断的背景下,工具变量的识别策略以及具体的估计方法、诊断方法。主要内容包括:
Cer2022
, Chap 3, Sec 4.1MHE2018
, Chap 4
Hansen2021
| Hansen B E . 2021. Econometrics. Princeton University Press. Data and Contents, PDF, -PDF2-MHE2008
| Angrist, J. D., J.-S. Pischke. Mostly harmless econometrics: An empiricist's companion[M]. Princeton, NJ: Princeton University Press, 2008. -Blogs-, -PDF-, Data-Codes=R-Stata-Python, -Slides-Cer2022
| Cerulli, G. Econometric evaluation of socio-economic programs theory and applications[M]. Springer, 2022. -Link-, -Website- (登陆学校图书馆账号可以下载 2e PDF), PDF-1e
Chan2022
| Chan, F., L. Mátyás. Econometrics with machine learning[M]. Springer, 2022. -Link-. 登陆学校图书馆可以下载 PDF 全本.Woold2010
| Wooldridge, J. M. Econometric analysis of cross section and panel data, 2nd ed[M]. Cambridge, MA: MIT press, 2010. -PDF-, -Link- (内附 Stata codes, Slides 和相关资料)附:计量基础和 Stata 实操
Baum2006
| Baum, C. An introduction to modern econometrics using stata[M]. Stata Press, 2006. -Link-, PDF,计量基础和 Stata 实操Acock2018
| Acock, A. C. A gentle introduction to stata (6e)[M]. Stata Press, 2018. -Website-, Data-Codes, -Answer-, -PDF-4e,Stata 基础、数据处理等
或 长按/扫描二维码报名:
方式 1:对公转账
方式 2:微信扫码支付
温馨提示: 微信转账时,请务必在「添加备注」栏填写「汇款人姓名-单位」信息。
听课软件:支持 手机,ipad ,平板以及 windows/Mac 系统的笔记本,但不支持台式机
特别提示:
本次课程实行实名参与,具体要求如下:
或扫码填写助教申请资料:
连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站