Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存 ,可以获得最佳浏览体验。
New! lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
, ihelp
, rdbalance
, gitee
, installpkg
✌ 课程详情 : https://gitee.com/lianxh/Course
⛳ 课程主页 : https://gitee.com/lianxh/Course
⛳ Stata 系列推文:
☝ PDF下载 - 推文合集
作者 :曹昊煜 (兰州大学)
邮箱 :caohy19@lzu.edu.cn
编者按 :本文主要摘译自下文,特此致谢!
Source :Cinelli C, Forney A, Pearl J. A Crash Course in Good and Bad Controls. Sociological Methods & Research. 2022. -PDF- -Link- -R-
本系列分成理论和实操两部分:
目录
1. 导言
在实证研究中「坏的控制」时常出现,当一个变量的加入使得回归结果与预期产生明显差异时,该变量可能是坏的控制。如何避免这一差异已经成为实证研究中的重要挑战。在本文中,我们试图使用图形工具来解决这一问题。
当需要使估计结果更加接近真实参数时,我们必须考虑加入某个变量后对结果的影响。一方面存在一些好的控制,如果不加入模型可能导致遗漏变量问题。另一方面,如果加入坏的控制,则可能导致估计偏误。
尽管在现有的部分教材中提到了遗漏 “相关变量” 问题,但他们并未明确说明何谓 “相关变量”,也没有指出加入某些变量可能导致不一致估计的问题。上述事实可能会使研究者产生一个不好的想法,即尽可能多地加入控制变量总是更好的。
实际上,好的控制是在感兴趣的解释变量确定时已经固定的变量,即不受处理变量影响的因素,而坏的控制会受到处理变量的影响。但这一条件对控制变量是否是好的控制而言既不必要也不充分。尽管如此,我们仍可以借助图形来更好地理解控制变量的好坏。
2. 因果模型与因果图
2.1 结构因果模型与因果图
为了研究回归方程的估计结果与因果效应是否存在差距,首先必须定义因果效应。下面是一个结构因果模型 (Structural Causal Models,SCM) 的例子:
M = { Z ← f z ( U z ) X ← f x ( Z , U x ) Y ← f y ( X , Z , U y ) U ∼ P ( U )
其中,V = { Z , X , Y } 为内生变量,U = { U x , U y , U z } 为一切外生的因素,通常称之为扰动项。函数 F = { f z , f x , f y } 称为结构方程,每一个函数代表了一条因果路径。模型定义了内生变量的联合分布 P ( V ) ,称为观测分布。每个结构因果模型都可以使用因果图 (又称有向无环图) 表示,结构因果模型 M 的因果图如下所示:
2.2 干预和因果效应
干预是通过改变 SCM 的机制实现的。例如,我们使用 d o ( X = x ) 代替模型中的机制 X ← f x ( Z , U x ) ,即 X 被外生地赋值为 x ,则因果图变为:
此时 SCM 中的内生变量服从干预分布 P ( V | d o ( X = x ) ) ,平均因果效应为 (Average Causal Effect,ACE):
A C E ( x ) = E [ Y | d o ( x + 1 ) ] − E [ Y | d o ( x ) ]
可见因果效应取决于 x 的取值,在线性模型中,ACE 退化为一个数值。当然,也可以使用同样的思路定义其他的因果效应,比如条件直接效应 (Controlled Direct Effect,CDE)。此时内生变量 Z 也受到控制:
C D E ( x , z ) = E [ Y | d o ( x + 1 ) , d o ( z ) ] − E [ Y | d o ( x ) , d o ( z ) ]
在加入干预机制的结构因果模型 M x 中,潜在结果 V x 定义为内生变量的解,也就是说 P ( V | d o ( X = x ) ) 可以等价地写为 P ( V x ) 。从而平均因果效应可以写为:
2.3 因果与非因果路径
假定所有函数关系都是线性的,即 Z ← U z ,X ← λ z x Z + U z ,Y ← λ x y X + λ z y Z + U y 。进一步假定 U 服从多元正态分布。因此 ACE 为:
A C E ( x ) = E [ Y | d o ( x + 1 ) ] − E [ Y | d o ( x ) ] = λ x y
Y 对 X 回归的系数:
β y , x = Cov ( Y , X ) Var ( X ) = λ x y + λ z x λ z y
因此直接使用 Y 对 X 回归无法得到真正的因果关系。其原因在于 Z 混杂在二者的因果关系中,或者说存在混杂路径 X ← Z → Y ,有时也称为 “后门路径”,此时 Z 必须控制在回归方程中。
在一般的因果图中,需要理解三种重要的因果关系:
中介 (Chains):中介指的是路径 X → Z → Y ,即 X 对 Y 的因果影响是通过 Z 实现的。在方程中控制 Z 会阻断这一联系; 共同原因 (Forks):共同原因指的是路径 X ← Z → Y ,即 Z 同时影响 X 和 Y 。因此二者间存在非因果路径,在方程中控制 Z 会阻断这一联系; 共同结果 (Coliders):共同结果指的是路径 X → Z ← Y ,这一路径本身是关闭的,但如果我们在方程中控制了 Z ,则会打开这一非因果路径。
需要注意的是,控制某一变量的派生变量也视为部分控制了该因素。现在我们可以判断当以 Z 为条件时,路径 p 是否被阻断:
当路径是中介或共同原因时,Z 中会纳入中间节点能够阻断路径 p ; 当路径是共同结果时,Z 中既不包含中间节点,也不包含其结果,则能够阻断路径 p 。
2.4 后门准则
因果图揭示了何种 Z 的设定会阻断正确的因果路径,我们需要做的是选择 Z ,以保证:
以上三点称为后门准则。如果我们能够找到一组变量 Z = { Z 1 , Z 2 , ⋯ , z K } ,那么使用迭代期望率:
E [ Y | d o ( X = x ) ] = E [ E [ Y | X = x , Z = z ] ]
2.5 线性与非线性模型
前文的识别结果还没有参数化,其步骤是首先计算出 E [ Y | X = x , Z = z ] ,再计算 Z 的无条件均值。如果 E [ Y | X = x , Z = z ] 是线性的,那么:
E [ E [ Y | X = x , Z = z ] ] = β y x , z + ∑ j = 1 k β y z j , x z − j E [ Z j ]
其中 Z − j 表示 Z 中除了 Z j 以外的变量。因此在线性假定下,ACE 简化为 β y x , z 。但如果函数假定是非线性的,则该结果不再成立。
2.6 实质共同结果与 d 分离
考虑以下因果模型:
可以看到共同结果 X → Y ← U y ,当我们在模型中控制了 Z 时,会部分打开这一路径,此时 Z 就是一个坏的控制。如果 Z 的设定阻断了所有 X 和 Y 之间的路径,则称二者 d 分离,也即条件独立 Y ⊥ X | Z 。因此,假定该示例中不存在路径 X → Y ,则 X 和 Y 是 d 分离的,此时控制 Z 也不会打开任何二者间的路径。
3. 好的控制与坏的控制
这一部分将介绍 18 个结构因果模型并分析其控制的好坏,各分类的名称由作者命名,因此可能不具备一般性。
3.1 好的控制
3.1.1 共同原因情形
当 Z 作为共同原因或者共同原因的派生变量时,控制 Z 可以阻断虚假的因果路径。
模型 1 中 Z 是共同原因,因此必须控制在模型中。而在模型 2 或模型 3 中,Z 并不是传统意义上的混淆因素,但控制 Z 可以切断来自不可观测因素的混淆,此时可以得到无偏的 ACE 估计。
3.1.2 带有中介的共同原因
如果模型中同时存在共同原因和中介关系,那么同样必须阻断后门路径。
以上三个模型中同时包含了中介关系和共同原因,以模型 4 为例,其后门路径为 X ← Z → M → Y 。而在模型 5 和模型 6 中,Z 是共同原因 U 的派生变量,因此同样可以阻断后门路径。
3.2 坏的控制
3.2.1 M 偏误
在模型 7 中,变量 Z 同时与处理变量和结果变量相关,因此其被称为 “预处理” 变量。尽管在传统的计量经济学中认为 Z 是一个好的控制,但实际上可能会打开一条后门路径 X ← U 1 → Z ← U 2 → Y ,这种坏的控制称为 M 偏误。
3.2.2 偏误放大
另一种关于 “预处理” 的控制是加入影响处理变量的因素。在这一情形下,不但无法分离出真实的因果效应,还会放大本身存在的偏误。
3.2.3 阻断正确路径
在因果推断中,一方面我们想要剔除所有可疑的路径,另一方面也要注意不能阻断正确的因果路径。下面两个模型显示了阻断因果路径的坏控制:
在这两个模型中,Z 分别作为中介变量和中介变量的派生变量,因此在模型中加入 X 之后,会完全和部分阻断正确的因果路径,导致不一致的估计。
3.2.4 打开混淆路径
对具有中介变量的模型稍加改动。假设存在不可观测的因素 U 作为 Z 和 Y 的共同原因。此时路径 X → Z ← U → Y 被 Z 这一共同结果阻断,加入 Z 之后反而会打开该路径。
3.2.5 选择偏误
以下两种情况称为选择偏误,其特征是打开了与 X 和 Y 共同相关的因果路径。在左边的模型中,控制 Z 之后出现了混淆路径 X → Z ← U → Y ,右边的模型则由于控制了共同原因而违反了后门准则。
3.2.6 Case-Control 偏误
在最后一个模型中,如果加入 Y 的派生变量也可能导致估计偏误,尽管 X 和 Z 之间并不存在因果路径。
这一结果的原因很难通过因果路径解释,但 Z 本质上是 Y 的一个派生变量,其很有可能是处理的结果,因此加入 Z 同样是一个坏的控制。但当 X 和 Y 之间的路径不存在,或者说二者 d 分离时,加入 Z 可以检验二者的关系是否为 0。
3.3 中性的控制
3.3.1 可能提高精度的情形
在很多情形下,加入某些控制变量是无害的,但也无法提供更多因果信息。例如在以下模型中,Z 并没有混淆因果关系,也没有阻断可疑的因果路径,因此 Z 是一个中性的控制。但加入 Z 之后,因果关系估计的标准误会下降,因此 Z 能够改善 ACE 的估计精度。
3.3.2 可能降低精度的情形
与第一种情形相反,在下面的模型中虽然控制 Z 也不会影响从 X 到 Y 的因果关系,但是此时会放大 ACE 的估计方差,降低估计的精度。可见 X 的父变量会损害估计精度,而 Y 的父变量则会提高估计精度。
要注意的是,该模型与偏误放大情形非常类似,唯一的区别在于该模型中不存在与 X 和 Y 同时相关的不可观测因素。
3.3.3 可能缓解选择偏误的情形
与传统经济学不同,并非所有 “处理后” 变量都是坏的控制。在以下的两个模型中,Z 的加入并未打开混淆路径。
在这两个模型中,加入 Z 都会降低 X 的方差,因而损害估计的精度。但在右边的模型中,控制 Z 可以缓解关于 W 的选择偏误。
4. 结语
本文对结构因果模型进行了简要的介绍,同时列举了诸多好的控制、坏的控制和中性控制的例子。通过后门准则,我们可以在绝大多数情况下分析控制变量的优劣,但对于中性控制与平均因果关系估计精度,以及其他特殊情形,因果图可能无法提供直接的判断,需要结合实际的研究问题和更深入的结构因果方程理论来进行分析。
5. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 控制变量, m
安装最新版 lianxh
命令:
ssc install lianxh, replace
相关课程
免费公开课
最新课程-直播课
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New! lianxh
和 songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh