A-理论部分:控制变量!控制变量!Good-Controls-Bad-Controls
2022-09-07
曹昊煜
10857

连享会   主页 || 推文 || 知乎 || B 站 || 在线课堂

New! 搜推文,找资料,用 lianxh 命令:
安装: ssc install lianxh, replace
使用: lianxh 合成控制
       lianxh DID + 多期, w


⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:曹昊煜 (兰州大学)
邮箱caohy19@lzu.edu.cn

编者按:本文主要摘译自下文,特此致谢!
Source:Cinelli C, Forney A, Pearl J. A Crash Course in Good and Bad Controls. Sociological Methods & Research. 2022. -PDF- -Link- -R-

本系列分成理论和实操两部分:


目录
[[TOC]]


1. 导言

在实证研究中「坏的控制」时常出现,当一个变量的加入使得回归结果与预期产生明显差异时,该变量可能是坏的控制。如何避免这一差异已经成为实证研究中的重要挑战。在本文中,我们试图使用图形工具来解决这一问题。

当需要使估计结果更加接近真实参数时,我们必须考虑加入某个变量后对结果的影响。一方面存在一些好的控制,如果不加入模型可能导致遗漏变量问题。另一方面,如果加入坏的控制,则可能导致估计偏误。

尽管在现有的部分教材中提到了遗漏 “相关变量” 问题,但他们并未明确说明何谓 “相关变量”,也没有指出加入某些变量可能导致不一致估计的问题。上述事实可能会使研究者产生一个不好的想法,即尽可能多地加入控制变量总是更好的。

实际上,好的控制是在感兴趣的解释变量确定时已经固定的变量,即不受处理变量影响的因素,而坏的控制会受到处理变量的影响。但这一条件对控制变量是否是好的控制而言既不必要也不充分。尽管如此,我们仍可以借助图形来更好地理解控制变量的好坏。

2. 因果模型与因果图

2.1 结构因果模型与因果图

为了研究回归方程的估计结果与因果效应是否存在差距,首先必须定义因果效应。下面是一个结构因果模型 (Structural Causal Models,SCM) 的例子:

M={Zfz(Uz)Xfx(Z,Ux)Yfy(X,Z,Uy)UP(U)M = \left\{ \begin{align*} &Z \leftarrow f_z(U_z) \\ &X \leftarrow f_x(Z,U_x) \\ &Y \leftarrow f_y(X,Z,U_y) \\ &\mathbf{U} \sim P(\mathbf{U}) \end{align*} \right.

其中,V={Z,X,Y}\mathbf{V} = \{Z,X,Y\} 为内生变量,U={Ux,Uy,Uz}\mathbf{U} = \{ U_x,U_y,U_z \} 为一切外生的因素,通常称之为扰动项。函数 F={fz,fx,fy}F = \{f_z,f_x,f_y\} 称为结构方程,每一个函数代表了一条因果路径。模型定义了内生变量的联合分布 P(V)P(\mathbf{V}),称为观测分布。每个结构因果模型都可以使用因果图 (又称有向无环图) 表示,结构因果模型 M 的因果图如下所示:

2.2 干预和因果效应

干预是通过改变 SCM 的机制实现的。例如,我们使用 do(X=x)do(X = x) 代替模型中的机制 Xfx(Z,Ux)X \leftarrow f_x(Z,U_x),即 XX 被外生地赋值为 xx,则因果图变为:

此时 SCM 中的内生变量服从干预分布 P(Vdo(X=x))P(\mathbf{V}|do(X=x)),平均因果效应为 (Average Causal Effect,ACE):

ACE(x)=E[Ydo(x+1)]E[Ydo(x)]ACE(x) = E\left[ Y|do(x+1) \right] - E\left[ Y|do(x) \right]

可见因果效应取决于 xx 的取值,在线性模型中,ACE 退化为一个数值。当然,也可以使用同样的思路定义其他的因果效应,比如条件直接效应 (Controlled Direct Effect,CDE)。此时内生变量 ZZ 也受到控制:

CDE(x,z)=E[Ydo(x+1),do(z)]E[Ydo(x),do(z)]CDE(x,z) = E\left[ Y|do(x+1),do(z) \right] - E\left[ Y|do(x),do(z) \right]

在加入干预机制的结构因果模型 MxM_x 中,潜在结果 Vx\mathbf{V}_x 定义为内生变量的解,也就是说 P(Vdo(X=x))P(\mathbf{V}|do(X=x)) 可以等价地写为 P(Vx)P(\mathbf{V}_x)。从而平均因果效应可以写为:

ACE(x)=E[Yx+1]E[Yx]ACE(x) = E\left[ Y_{x+1} \right] - E\left[ Y_x \right]

2.3 因果与非因果路径

假定所有函数关系都是线性的,即 ZUzZ \leftarrow U_zXλzxZ+UzX \leftarrow \lambda_{zx} Z + U_zYλxyX+λzyZ+UyY \leftarrow \lambda_{xy}X+\lambda_{zy}Z + U_y。进一步假定 U\mathbf{U} 服从多元正态分布。因此 ACE 为:

ACE(x)=E[Ydo(x+1)]E[Ydo(x)]=λxyACE(x) = E\left[ Y|do(x+1) \right] - E\left[ Y|do(x) \right] = \lambda_{xy}

YYXX 回归的系数:

βy,x=Cov(Y,X)Var(X)=λxy+λzxλzy\beta_{y,x} = \frac{\operatorname{Cov}(Y,X)}{\operatorname{Var}(X)} = \lambda_{xy} + \lambda_{zx}\lambda_{zy}

因此直接使用 YYXX 回归无法得到真正的因果关系。其原因在于 ZZ 混杂在二者的因果关系中,或者说存在混杂路径 XZYX\leftarrow Z \rightarrow Y,有时也称为 “后门路径”,此时 ZZ 必须控制在回归方程中。

在一般的因果图中,需要理解三种重要的因果关系:

  • 中介 (Chains):中介指的是路径 XZYX \rightarrow Z \rightarrow Y,即 XXYY 的因果影响是通过 ZZ 实现的。在方程中控制 ZZ 会阻断这一联系;
  • 共同原因 (Forks):共同原因指的是路径 XZYX \leftarrow Z \rightarrow Y,即 ZZ 同时影响 XXYY。因此二者间存在非因果路径,在方程中控制 ZZ 会阻断这一联系;
  • 共同结果 (Coliders):共同结果指的是路径 XZYX \rightarrow Z \leftarrow Y,这一路径本身是关闭的,但如果我们在方程中控制了 ZZ,则会打开这一非因果路径。

需要注意的是,控制某一变量的派生变量也视为部分控制了该因素。现在我们可以判断当以 Z\mathbf{Z} 为条件时,路径 pp 是否被阻断:

  • 当路径是中介或共同原因时,Z\mathbf{Z} 中会纳入中间节点能够阻断路径 pp
  • 当路径是共同结果时,Z\mathbf{Z} 中既不包含中间节点,也不包含其结果,则能够阻断路径 pp

2.4 后门准则

因果图揭示了何种 Z\mathbf{Z} 的设定会阻断正确的因果路径,我们需要做的是选择 Z\mathbf{Z},以保证:

  • 阻断所有虚假的路径;
  • 避免阻断或部分阻断真实的因果路径;
  • 避免打开其他虚假的路径。

以上三点称为后门准则。如果我们能够找到一组变量 Z={Z1,Z2,,zK}\mathbf{Z} = \{ Z_1,Z_2,\cdots,z_K \},那么使用迭代期望率:

E[Ydo(X=x)]=E[E[YX=x,Z=z]]E \left[ Y|do(X=x) \right] = E \left[ E \left[ Y|X=x, \mathbf{Z} = z \right] \right]

2.5 线性与非线性模型

前文的识别结果还没有参数化,其步骤是首先计算出 E[YX=x,Z=z]E \left[ Y|X=x, \mathbf{Z} = z \right],再计算 Z\mathbf{Z} 的无条件均值。如果 E[YX=x,Z=z]E \left[ Y|X=x, \mathbf{Z} = z \right] 是线性的,那么:

E[E[YX=x,Z=z]]=βyx,z+j=1kβyzj,xzjE[Zj]E \left[ E \left[ Y|X=x, \mathbf{Z} = z \right] \right] = \beta_{yx,\mathbf{z}} + \sum_{j=1}^{k} \beta_{yz_j,x\mathbf{z}_{-j}}E[Z_j]

其中 Zj\mathbf{Z}_{-j} 表示 Z\mathbf{Z} 中除了 ZjZ_j 以外的变量。因此在线性假定下,ACE 简化为 βyx,z\beta_{yx,\mathbf{z}}。但如果函数假定是非线性的,则该结果不再成立。

2.6 实质共同结果与 d 分离

考虑以下因果模型:

可以看到共同结果 XYUyX \rightarrow Y \leftarrow U_y,当我们在模型中控制了 ZZ 时,会部分打开这一路径,此时 ZZ 就是一个坏的控制。如果 Z\mathbf{Z} 的设定阻断了所有 XXYY 之间的路径,则称二者 d 分离,也即条件独立 YXZY \bot X|\mathbf{Z}。因此,假定该示例中不存在路径 XYX \rightarrow Y,则 XXYY 是 d 分离的,此时控制 ZZ 也不会打开任何二者间的路径。

3. 好的控制与坏的控制

这一部分将介绍 18 个结构因果模型并分析其控制的好坏,各分类的名称由作者命名,因此可能不具备一般性。

3.1 好的控制

3.1.1 共同原因情形

ZZ 作为共同原因或者共同原因的派生变量时,控制 ZZ 可以阻断虚假的因果路径。

模型 1 中 ZZ 是共同原因,因此必须控制在模型中。而在模型 2 或模型 3 中,ZZ 并不是传统意义上的混淆因素,但控制 ZZ 可以切断来自不可观测因素的混淆,此时可以得到无偏的 ACE 估计。

3.1.2 带有中介的共同原因

如果模型中同时存在共同原因和中介关系,那么同样必须阻断后门路径。

以上三个模型中同时包含了中介关系和共同原因,以模型 4 为例,其后门路径为 XZMYX \leftarrow Z \rightarrow M \rightarrow Y。而在模型 5 和模型 6 中,ZZ 是共同原因 UU 的派生变量,因此同样可以阻断后门路径。

3.2 坏的控制

3.2.1 M 偏误

在模型 7 中,变量 ZZ 同时与处理变量和结果变量相关,因此其被称为 “预处理” 变量。尽管在传统的计量经济学中认为 ZZ 是一个好的控制,但实际上可能会打开一条后门路径 XU1ZU2YX \leftarrow U_1 \rightarrow Z \leftarrow U_2 \rightarrow Y,这种坏的控制称为 M 偏误。

3.2.2 偏误放大

另一种关于 “预处理” 的控制是加入影响处理变量的因素。在这一情形下,不但无法分离出真实的因果效应,还会放大本身存在的偏误。

3.2.3 阻断正确路径

在因果推断中,一方面我们想要剔除所有可疑的路径,另一方面也要注意不能阻断正确的因果路径。下面两个模型显示了阻断因果路径的坏控制:

在这两个模型中,ZZ 分别作为中介变量和中介变量的派生变量,因此在模型中加入 XX 之后,会完全和部分阻断正确的因果路径,导致不一致的估计。

3.2.4 打开混淆路径

对具有中介变量的模型稍加改动。假设存在不可观测的因素 UU 作为 ZZYY 的共同原因。此时路径 XZUYX\rightarrow Z \leftarrow U \rightarrow YZZ 这一共同结果阻断,加入 ZZ 之后反而会打开该路径。

3.2.5 选择偏误

以下两种情况称为选择偏误,其特征是打开了与 XXYY 共同相关的因果路径。在左边的模型中,控制 ZZ 之后出现了混淆路径 XZUYX \rightarrow Z \leftarrow U \rightarrow Y,右边的模型则由于控制了共同原因而违反了后门准则。

3.2.6 Case-Control 偏误

在最后一个模型中,如果加入 YY 的派生变量也可能导致估计偏误,尽管 XXZZ 之间并不存在因果路径。

这一结果的原因很难通过因果路径解释,但 ZZ 本质上是 YY 的一个派生变量,其很有可能是处理的结果,因此加入 ZZ 同样是一个坏的控制。但当 XXYY 之间的路径不存在,或者说二者 d 分离时,加入 ZZ 可以检验二者的关系是否为 0。

3.3 中性的控制

3.3.1 可能提高精度的情形

在很多情形下,加入某些控制变量是无害的,但也无法提供更多因果信息。例如在以下模型中,ZZ 并没有混淆因果关系,也没有阻断可疑的因果路径,因此 ZZ 是一个中性的控制。但加入 ZZ 之后,因果关系估计的标准误会下降,因此 ZZ 能够改善 ACE 的估计精度。

3.3.2 可能降低精度的情形

与第一种情形相反,在下面的模型中虽然控制 ZZ 也不会影响从 XXYY 的因果关系,但是此时会放大 ACE 的估计方差,降低估计的精度。可见 XX 的父变量会损害估计精度,而 YY 的父变量则会提高估计精度。

要注意的是,该模型与偏误放大情形非常类似,唯一的区别在于该模型中不存在与 XXYY 同时相关的不可观测因素。

3.3.3 可能缓解选择偏误的情形

与传统经济学不同,并非所有 “处理后” 变量都是坏的控制。在以下的两个模型中,ZZ 的加入并未打开混淆路径。

在这两个模型中,加入 ZZ 都会降低 XX 的方差,因而损害估计的精度。但在右边的模型中,控制 ZZ 可以缓解关于 WW 的选择偏误。

4. 结语

本文对结构因果模型进行了简要的介绍,同时列举了诸多好的控制、坏的控制和中性控制的例子。通过后门准则,我们可以在绝大多数情况下分析控制变量的优劣,但对于中性控制与平均因果关系估计精度,以及其他特殊情形,因果图可能无法提供直接的判断,需要结合实际的研究问题和更深入的结构因果方程理论来进行分析。

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 控制变量, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

[(https://www.lianxh.cn/details/1543.html)

资源共享


尊敬的老师 / 亲爱的同学们:
连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。
请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。
我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。more……
  • 扫码加入连享会微信群,提问交流更方便

在实证研究中「坏的控制」时常出现,当一个变量的加入使得回归结果与预期产生明显差异时,该变量可能是坏的控制。如何避免这一差异已经成为实证研究中的重要挑战。在本文中,我们试图使用图形工具来解决这一问题

最新课程推荐:

连享会 · 面板数据因果推断

FAQ往期课程板书和答疑文档

选题征集,点击 此处 或者扫码填写问卷留下您的宝贵意见,感谢!


NEW!视频课堂lianxh-class.cn

⚡ 新版 lianxh 命令:使用说明
. ssc install lianxh, replace
. lianxh 多期DID

ihelp:帮助文件 PDF 版
. ssc install ihelp, replace
. ihelp xtreg


lianxh_cn_saoma

连玉君 · Stata 33 讲 - 免费
  o 点击观看dofile 下载, --Book--