Stata:控制变量与核心解释变量地位对等吗?
2022-07-18
付一帆
8429

连享会   主页 || 推文 || 知乎 || B 站 || 在线课堂

New! 搜推文,找资料,用 lianxh 命令:
安装: ssc install lianxh, replace
使用: lianxh 合成控制
       lianxh DID + 多期, w


⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:付一帆 (天津大学)
邮箱yifanfu_0912@tju.edu.cn


目录
[[TOC]]


FWL 定理 (详见连享会推文 Frisch-Waugh定理与部分回归图) 使我们能在多元线性回归模型中,得到各解释变量排除 (partialled out) 其他解释变量影响后的净效应。这引出一个问题:我们将核心解释变量和控制变量一起回归,似乎对二者并没有做任何区分,仅是在主观上更关注自变量。

那么,控制变量与核心解释变量的地位是对等的吗?对二者回归系数的解释是一致的吗?

1. 相关关系

回答这一问题的关键在于,是否在因果框架下进行讨论。在仅探讨相关关系时,控制变量和核心变量的地位平等。在因果研究的框架下,条件均值独立假设导致控制变量和核心变量地位不平等。例如,研究子女上学年限对工资的影响,线性回归模型为:

y=β0+βxx+βzz+εy=\beta_0+\beta_xx+\beta_zz+\varepsilon

其中 yy 是年工资 (元),核心解释变量 xx 是子女上学年限 (年),控制变量 zz 是母亲上学年限 (年), βx\beta_xβz\beta_z 分别表示 xxzz 的回归系数。在未构建因果模型时,自变量 xx 和控制变量 zz 在 OLS 算法的眼里确实是一样的,所以回归系数的机械解释也是一样的。具体来看:

  • βx\beta_x 的解释是:如果母亲上学年限一样,平均来讲,多上一年学的小明比少上一年学的小红每年多赚 βx\beta_x 元;
  • βz\beta_z 的解释是:如果小明和小红的上学年限一样,但小明的妈妈比小红的妈妈多上一年学,平均来讲,小明的年工资比小红多 βz\beta_z 元。

此时,自变量和控制变量只不过是在主观上有所区分,实际地位对等。但是,一旦涉及到因果模型,βx\beta_x 仍然可以作为因果解释,而 βz\beta_z 就只能作为相关解释了。

2. 因果关系

假设真实的因果模型如下图所示:

在回归模型 y=β0+βxx+βzz+εy=\beta_0+\beta_xx+\beta_zz+\varepsilon 中:

  • βx\beta_x 可以作为因果解释:给定母亲的上学年限相同,平均每多上一年学能增加工资 βx\beta_x。这是因为母亲上学年限 zz 作为控制变量之后,xxε\varepsilon 就不再相关,E(xεz)=0E(x\varepsilon|z) = 0βx\beta_x 无偏;
  • βz\beta_z 只能作为相关解释:不能说母亲每多上一年学,就能增加子女的工资 βz\beta_z,只能说母亲的教育水平和子女的工资是正相关的。这是由于母亲上学年限在 ε\varepsilon 里面导致 zzε\varepsilon 相关,E(zεx)0E(z\varepsilon|x) \neq 0βz\beta_z 有偏。

到这里,大家可能发现一个问题:控制变量 zz 与扰动项 ε\varepsilon 相关,这不符合 OLS 的解释变量与随机误差项不相关假定。这一假定要求所有解释变量都外生,即所有解释变量均与扰动项不相关。进一步,只要某一解释变量与扰动项相关,则将 “污染” 所有参数估计量,导致它们的估计值都不一致。

为何在因果框架下可以放松这一假定,而允许控制变量 zz 和扰动项 ϵ\epsilon 相关呢?

在因果框架下,我们通常只对回归方程中的一个核心解释变量感兴趣,特别希望得到对其系数的一致估计,并将其解释为核心变量对被解释变量的因果效应。另一方面,对于方程中的其他变量本身又无太大兴趣,之所以把它们也放入回归方程,只是为了 “控制” 那些对被解释变量有影响的遗漏因素来避免 “遗漏变量偏差”。即使对控制变量系数估计不一致,我们也尚可接受。

既然我们可以容忍对于控制变量系数的不一致估计,就不必要求控制变量外生。此时,可以放松所有解释变量和扰动项均不相关的过强假定,只要求在给定控制变量的条件下,核心变量与扰动项不相关即可。

这又引出下面的问题:如何从理论上证明,核心变量与扰动项条件不相关时,可以得到核心变量的一致估计?

3. 条件均值独立

首先,了解独立、均值独立、不相关这三个度量随机变量不相关程度的概念对回答这一问题有所帮助。最强的概念为独立,表明两个随机变量一点关系也没有。较弱的概念为 (线性) 不相关,表明还可能存在点非线性的相关关系。二者之间还有一个中间层次的表示随机变量不相关的概念,即均值独立

均值独立的定义是:如果 E(yx)E(y|x) 不依赖于 xx,则称 yy 均值独立于 xx。使用迭代期望定律,容易证明均值独立的充分必要条件为 E(yx)=E(y)E(y|x)=E(y),即条件期望等于无条件期望。而 “条件均值独立” 则在 “均值独立” 的基础上加了一个 “条件”。

假设研究子女上学年限对工资的影响:y=β0+βxx+βzz+εy=\beta_0+\beta_xx+\beta_zz+\varepsilon 满足条件均值独立,也就意味着,在给定母亲上学年限 zz 的条件下,扰动项 ε\varepsilon 均值独立于子女上学年限 xx。那么,条件均值独立对于一致地估计核心解释变量有何帮助?

4. 理论证明

第一,我们并不要求扰动项 ε\varepsilon 与母亲上学年限 zz 不相关,故 ε\varepsilon 也不会均值独立于 zz。因此,条件期望仍然是 zz 的函数,不妨设为线性函数 (非线性函数也不影响结论):

E(εz)=γ0+γ1z\mathrm{E}\left(\varepsilon \mid z\right)=\gamma_{0}+\gamma_{1} z

第二,条件均值独立使得在给定控制变量 zz 的条件下,扰动项 ε\varepsilon 均值独立于 xx

E(εx,z)=E(εz)\mathrm{E}\left(\varepsilon \mid x, z \right)=\mathrm{E}\left(\varepsilon \mid z\right)

第三,将扰动项 ε\varepsilon 做一个分解,即从中分离出条件期望 E(εx,z)\mathrm{E}\left(\varepsilon \mid x, z\right),并将其余部分定义为:

u=εE(εx,z)=εE(εz)\quad u = \varepsilon-\mathrm{E}\left(\varepsilon \mid x, z\right) =\varepsilon-\mathrm{E}\left(\varepsilon \mid z\right)

第四,将此式代入原模型可得:

y=β0+β1x+β2z+E(εz)+u\quad y=\beta_{0}+\beta_{1} x+\beta_{2} z+\mathrm{E}\left(\varepsilon \mid z\right)+u

第五,代入 E(εz)=γ0+γ1z\mathrm{E}\left(\varepsilon \mid z\right)=\gamma_{0}+\gamma_{1} z 可得:

y=(β0+γ0)+β1x+(β2+γ1)z+u\quad y=\left(\beta_{0}+\gamma_{0}\right)+\beta_{1} x+\left(\beta_{2}+\gamma_{1}\right) z+u

第六,对等式 u=εE(εx,z)u = \varepsilon-\mathrm{E}\left(\varepsilon \mid x, z\right) 两边取期望,得到:

E(ux,z)=E(εx,z)E(εx,z)=0\quad \mathrm{E}\left(u \mid x, z\right)=\mathrm{E}\left(\varepsilon \mid x, z\right)-\mathrm{E}\left(\varepsilon \mid x, z\right)=0

由于 uu 的条件期望为 0,说明方程的扰动项 uu 均值独立于 xxzz,因此 uuxxzz 均不相关, OLS 为一致估计。

具体而言,核心变量 xx 的系数估计量 β1^\hat{\beta_{1}} 为真实参数 β1{\beta_{1}} 的一致估计。然而,控制变量 zz 的系数估计量 (β2^+γ1^)(\hat{\beta_{2}}+\hat{\gamma_{1}}) 将收敛至 (β2+γ1)(\beta_{2}+\gamma_{1}),并不是原模型中真实参数 β2\beta_{2} 的一致估计。类似地,对于常数项的估计也不一致。

综合上面的分析:在相关关系中,核心解释变量和控制变量地位平等。在因果框架下,由于放松了解释变量与随机误差项不相关假定,导致二者地位不平等。

具体而言,因果框架下引入条件均值独立假设,允许控制变量与扰动项相关,而只要求在给定控制变量条件下核心解释变量与扰动项不相关即可。这样,核心解释变量系数是一致估计,可以解释因果关系,而控制变量的系数只有相关性的意义,不能作为因果关系解释。

5. 实证应用

案例来源于 stock 和 watson《lntroduction to Econometrics》,这一控制变量经典案例表明:控制变量的回归系数不能作为因果关系的解释。因果关系图如下所示:

该案例考察班级规模 str 对于测试成绩 testscr 的影响。除班级规模外,测试成绩还可能受到校外学习机会 meal_pct 的影响,比如补习班等。较差的学区通常班级规模大,而校外学习机会少。为避免遗漏这一变量可能导致的遗漏变量偏差问题 (如下图),需要将其作为控制变量纳入模型。

根据美国的政策,只有家庭收入低于某个临界值 (大约为贫困线的 150%) 才能享受免费或补助午餐,因此选用有资格享受折扣午餐的学生百分率度量校外学习机会,记为 meal_pct。变量含义如下表所示:

变量 变量表示 变量名称 变量含义
被解释变量 testscr 测试成绩 阅读和数学的平均成绩
核心解释变量 str 班级规模 学生/教师人数比
控制变量 meal_pct 校外学习机会 有资格享受折扣午餐的学生百分率

所用数据来源于加利福尼亚 420 个学区 1998 年和 1999 年的数据,这一数据集可以在《lntroduction to Econometrics》的 California Test Score Data 数据集中获取。相关实证分析如下:

. lxhuse caschool.dta, clear
. set linesize 80
. set cformat  %4.3f 
. set sformat  %4.2f
. set pformat  %4.3f
. sum testscr str meal_pct

    Variable |        Obs        Mean    Std. dev.       Min        Max
-------------+---------------------------------------------------------
     testscr |        420    654.1565    19.05335     605.55     706.75
         str |        420    19.64043    1.891812         14       25.8
    meal_pct |        420    44.70524    27.12338          0        100

. reg testscr str meal_pct

      Source |       SS           df       MS      Number of obs   =       420
-------------+----------------------------------   F(2, 417)       =    685.76
       Model |  116644.521         2  58322.2607   Prob > F        =    0.0000
    Residual |  35465.0723       417  85.0481351   R-squared       =    0.7668
-------------+----------------------------------   Adj R-squared   =    0.7657
       Total |  152109.594       419  363.030056   Root MSE        =    9.2222
------------------------------------------------------------------------------
     testscr | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
         str |     -1.117      0.240    -4.65   0.000       -1.590      -0.645
    meal_pct |     -0.600      0.017   -35.78   0.000       -0.633      -0.567
       _cons |    702.911      4.700   149.55   0.000      693.672     712.150
------------------------------------------------------------------------------

结果表明,我们所关注的核心解释变量 str 的系数显著为负,表明班级规模越大,则测试成绩越低。由于我们将 meal_pct 从扰动项中分离出来,核心解释变量 str 与扰动项不相关。同时,FWL 定理表明核心解释变量 str 的回归系数已经剔除了控制变量 meal_pct 对被解释变量 testscr 影响, 因此 str 的系数 -1.117 是一致的估计。

控制变量 meal_pct 的系数估计值是 -0.600,不能将其解释为有资格享受折扣午餐的学生占学区总人数的百分比每降低 1%,测试成绩增加 0.600,只能解释为有资格享受折扣午餐的学生占学区总人数的百分比与测试成绩有显著的负相关关系。

实际上,即使取消免费与补助午餐的项目,使得所有学区的 meal_pct 都降为 0%,也不能提高测试成绩,甚至有些学生可能因为饥饿或营养不良导致学习成绩下降。显然,meal_pct 的系数不能解释因果关系。

之所以还要将 meal_pct 纳入模型,是为了避免遗漏校外学习机会变量,使得 str 与扰动项条件均值独立,从而得到对于核心变量 str 系数的一致估计。而对控制变量 meal_pct 本身系数的估计,我们并不看重。即使 meal_pct 很可能与扰动项相关,导致对其系数的估计并不一致,我们也可以接受,只要求得到相关性解释即可。

6. 参考文献

  • Stock, James H.and Mark M. Watson. Introduction to Econometrics[M]. PearsonEducation Limited, 2012. -Dataset-
  • Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome. The Elements of Statistical Learning : Data Mining, Inference, and Prediction[M]. Springer New York, 2017. -PDF-
  • 孙嘉瑞. 再论OLS:核心变量与控制变量的区别 -Link-
  • 知乎. 控制变量是如何被“控制”的?-Link-

7. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 控制变量 回归系数, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

资源共享


尊敬的老师 / 亲爱的同学们:
连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。
请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。
我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。more……
  • 扫码加入连享会微信群,提问交流更方便

将核心解释变量和控制变量一起回归,控制变量与核心解释变量的地位是对等的吗?对二者回归系数的解释是一致的吗?

最新课程推荐:

课程一:结构模型 · 2025 · 现场班

课程二:连享会 · 面板数据因果推断

FAQ往期课程板书和答疑文档

选题征集,点击 此处 或者扫码填写问卷留下您的宝贵意见,感谢!


NEW!视频课堂lianxh-class.cn

⚡ 新版 lianxh 命令:使用说明
. ssc install lianxh, replace
. lianxh 多期DID

ihelp:帮助文件 PDF 版
. ssc install ihelp, replace
. ihelp xtreg


lianxh_cn_saoma

连玉君 · Stata 33 讲 - 免费
  o 点击观看dofile 下载, --Book--