调节效应是否需要考虑对控制变量交乘?

发布时间:2021-11-20 阅读 216

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:伊凌雪 (中央财经大学)
邮箱:yilingxue99@163.com


目录


1. 背景介绍

在调节效应模型中,如果我们主要关注的是核心解释变量的交互项,那么对于控制变量是否需要进行交乘呢?关于该问题,本文以一篇 2011 年发表在 QJE 上的论文作为示例进行说明,该论文主要研究了美国橄榄球赛季 (简称 NFL) 周日比赛结果与家庭暴力之间的关系。

论文的研究结论表明,在控制赛前积分差 (最喜欢的球队有望赢得的积分数) 和当地观众的规模 (有多少当地人在电视上观看了比赛) 后,如果主队输掉了一场胜券在握的比赛,当地家庭暴力 (男性对妻子或女朋友) 的发生率会上升 10%。相反,如果人们已经预料到比赛会输就不会导致类似的结果,但是比赛胜利也不会减少家庭暴力,说明输赢对个体情感具有不对称的作用。上述行为类似经济学中 “参照点理论”:即人们情绪波动来自于事实与预期之间的偏差,意料之外的损失更容易让人情绪不稳定。

2. 文章介绍

2.1 主要结果

文章的主要回归结果如下表所示,以 NFL 比赛后的家庭暴力作为因变量。从第 (1) 列到 (5) 列,依次包含更多控制变量,每一列代表不同的 (泊松) 回归结果。

根据赛前预测 (以赔率衡量),第一行第 (5) 列输掉比赛与预期会赢得比赛交互项 Loss × predicted win(upset loss) 的估计系数为 0.10,对应于主要结论中提到的暴力增加 10%。相比之下,第二行第 (5) 列 Loss × predicted close(close loss) 估计系数为 0.026,表明当对阵双方的实力不分伯仲,输掉比赛就不会导致类似的结果。

在第 (5) 列中,作者控制了观看当地比赛的家庭数量。尼尔森收视率 (由全球著名的市场调研公司尼尔森统计出的数据) 是影响比赛日家庭暴力的一个重要因素 (t = 2.2),观看比赛的家庭数量每增加 1%,亲密关系暴力 (intimate partner violence) 发生的几率就会上升约 0.3%。

2.2 主要困惑

正如 QJE 论文所指出的,这一发现令人担忧的是:当人们预期球队有望获胜时,观看比赛的人自然会更多。 这意味着有更多的人可能面临意料之外的输球结果,而不是预料之内的结果。因此,对于面临意外输球的结果后家庭暴力的增加主要有两种解释:

  • 解释 1:意料之外的输球结果更令人愤怒;
  • 解释 2:意料之外的输球结果原本就受到更多人关注。

然而,上面表 IV 中的第 (5) 列通过控制收视率 (尼尔森评级) 来区分这两者,这样的控制对于文章关注的重点显然是不够的。如果我们关注的问题是观看任何比赛的球迷人数越多,家庭暴力就越多,那么仅仅控制尼尔森评级将会是正确的解决方案。然而,在该论文中我们关心的是不同的内容,我们主要担心的混淆问题是观看一场输球比赛的粉丝人数越多,家庭暴力越多。

2.3 解决措施

一般来说,由于我们感兴趣的主要是交互项系数,因此任何的替代解释也必须涉及交互作用。在这种特殊的情况下,如果主要关注的效应涉及和输球队伍之间的交互项,那么控制变量也必须与输球队伍进行交乘。所以,当我们预期在比赛赢或输的情况下控制收视率可能产生不同的影响,就需要将控制变量与输掉比赛进行交乘,即在原来的基础上再添加 Nielsen Rating×Loss 这一项作为预测变量。以下面通用回归方程为例:

如果我们主要感兴趣的是 x×z 的交互项系数 c,如以下模型:

那么,当我们担心第三个变量 w 与 x 相关且与 y 相关时,仅仅控制变量 w 是不够的,如下所示:

相反,需要同时控制 w 与 z 的交互项:

事实上,这是一个比较普遍的问题,然而对控制变量进行交乘似乎不是研究人员普遍意识到的问题。总之,当感兴趣的系数是一个交互项,并且对于潜在混淆问题比较担忧时,需要对控制变量进行交乘。

2.4 作者反馈

根据上述做法,原作者将控制变量交乘后进行重新回归,得到的结果显示添加交互项不会明显改变估计系数的大小。具体来看,添加这些交互项并不会明显改变对沮丧输球变量的点估计:它变为 0.095 (0.056) [大约 p 值 = 0.09]。这与 QJE 论文中报告的当只控制 Nielsen 评级时估计值 0.100 (0.031) [大约 p 值 <0.001],以及当完全不控制 Nielsen 评级时 0 .096 (0.031) 相比。

有趣的是,Nielsen rating×lossNielsen rating × win 的系数几乎相同:分别为 0.0031 和 0.0034。此外,我们对损失厌恶进行测试 (若 upset loss = – upset win),现在的 p 值为 0.02,而之前为 0.01。所以我们的结论是添加评级的交互项会导致估计不太准确,但不会显著改变估计。

3. 相关解释

根据前面的问题,将控制变量进行交乘似乎存在一定的道理,但我们还是无法十分清楚了解为什么在调节效应模型中需要对控制变量进行交乘。另一篇发表在 JESP 上的论文同样涉及到这个问题,作者据此给出了相关解释。

文章中提到,社会心理学中一个常见的设计包括使用两个自变量,一个实验操纵和一个测量的个体差异,我们主要感兴趣的是它们之间的交互项。在这样的设计中,通常存在协变量 (s) 与估计的自变量相关,而研究人员通常在模型中添加协变量来对其进行控制。作者表明,在大多数情况下这是一个不充分的模型。一般来说,只有当协变量和被操纵的自变量之间的交互项纳入分析时,才能无偏地估计两个自变量之间的相互作用。作者据此进行了模拟,结果显示了影响偏差大小的因素。

3.1 偏差产生的原因

这里通过设定一个模型来解释:

首先,假设 X1i 是一个测量自变量,表示参与者的一些稳定特征。我们假设它在总体中呈正态分布,期望值为 0,方差为 σX12。其次,假设 X2i 是一个被操纵的自变量,参与者被随机分配,概率相同。X2i 的期望值也为 0,其方差等于 1.0。

接着,我们假设有一些测量的协变量 Ci,同样是正态分布的,期望值为 0,方差为 σC2。此外,我们假设它与 X1i 共变异,且 σX1,C0。两者之间的各种函数关系可能会影响这种协方差:即一个可能会导致另一个变化,或者其他一些变量可能导致两者的变化。虽然 Ci 和 X1i 之间的函数关系之间的区别在理论上很重要,但在分析上最重要的是这两者之间的共变效应。

最后,假设 Yi 是因变量,并且它是之前变量,还有这些变量之间的交互项,以及残差正态分布随机误差 ε1i 的函数。

在公式中,X1iX2i=X1iX2i,且 CiX2i=CiX2i。假设这是 “真正的” 总体模型,这意味着它指定了导致 Yi 变化的因素。所有变量的期望值都为 0 (包括残差),因此在总体中没有截距。我们假设被操纵的自变量 X2i 同时与 Ci 和 X1i 进行交乘,这两个变量虽然相关,但在影响 Yi 时并不相互作用。

当估计 X1iX2i 交互项系数时,如果估计一个没有考虑 CiX2i 交互项的模型,其参数估计是否有偏差。换句话说,假设估计了以下错误的模型 (即,经典的 ANCOVA 模型):

问题是 β24 是否与其真实值  β14 不同。从这两个表达式和我们所做的假设中,我们可以推导出:

因此,只有在两种情况下,错误指定的模型 (β24) 中的参数估计才会等于正确的模型 (β14) 中的参数。

第一个是当 Ci 和 X1i 不共变时。第二种情况是当 β15,即 CiX2i 交互项等于 0 时。换句话说,假设 Ci 和 X1i 是相关的,并且 CiX2i 交互项不为 0,除非在模型中包含 CiX2i 交互项,否则 X1iX2i 交互项系数将会存在偏差。还要注意的是,如果 Ci 和 X1i 的方差相等,则比值 σC,X1/σX12 等于这两个变量之间的相关系数。在这种情况下,偏差的程度将是该相关系数的线性函数。如果当相关系数为 0 时,就不会存在偏差;当相关系数接近 1.00 时,偏差系数将接近  β14+β15

另一个估计模型错误的情况是,忽略 Ci 和 CiX2i 交互项作为预测因子,即:

因为 Ci 和 X1iX2i 之间的预期协方差等于零,所以 X1iX2i 交互项的系数 (β33) 将完全等于模型 (5) 中的偏离系数 (β24)。换句话说,即使在模型中加入协变量,但不加入其与 X2i 的交乘项,也无法消除 X1iX2i 交互项估计系数的偏差。

3.2 蒙特卡罗模拟

为了进一步验证这种偏差的存在,作者进行了蒙特卡罗模拟,结果必然与上述分析结果相一致。在这些模拟中,作者特别关注第一类错误。因此,在真实的模型 (4) 中:

作者将 β14 固定为 0,同时将 β11β12 和  β13 固定为 1。残差的方差 σε12 固定为 5,Ci 和 X1i 的方差均设为 1。然后,作者改变了 β15 的大小 (在 0.00 到 1.00 之间,增量为 0.20) 以及 Ci 和 X1i 之间的相关性大小 (在 0.00 到 0.80 之间,增量为 0.20)。

我们允许这两个因素发生变化,因为根据上述的推导表明,它们决定了 β24 的偏离程度。由于 β14 固定为零,第一类错误主要是由于 β24 的显著引起的。因此在模拟中,作者不仅检验了 β24 的平均值,而且还检验了 β24 显著的相对频率。即在每个不同的参数组合下,进行了 1000 次模拟试验,每次随机抽样 100 个案例。

下表报告的为 β24 的平均值 (和标准误),在错误的 ANCOVA 模型中 X1iX2i 交互项的系数 (β24) 的估计结果。根据模拟规范,作者之前给出的分析结果要求 β24 的期望值等于在不同模拟中 β15 以及 Ci 和 X1i 的乘积。

下图报告的概率,是在省略 CiX2i 交互项的模型中错误发生的概率。当 CiX2i 交互项等于零或当 Ci 和 X1i 不相关时,第 1 类错误发生的概率等于 0.05。然而,这种概率随着这些因素从 0 偏离而增加。

另一组结果表明,在正确的模型中,我们可以评估 CiX2i 交互项显著的概率,假设实际上估计系数 β15 不为 0。结果如下图所示,即使在正确指定的模型中,CiX2i 交互项的估计系数也会存在实质性的偏差。这意味着,不应该通过在正确的模型中测试 CiX2i 交互项的显著性来决定是否将其保留在模型中。即使 CiX2i 交互项不显著,在错误的模型中对 X1iX2i 交互项的检验很可能会导致严重的偏差。

3.3 主要结论

文章模拟结果说明了错误模型会导致估计结果的偏差。作者改变了推导显示的两个影响偏差大小的因素:一方面是协变量和与之相关的自变量之间的关系,另一方面是协变量交互作用的真实影响。当这些因素偏离 0 时,如果不加入协变量的交互项就会导致有偏估计和第一类错误的出现。当我们发现协变量交互项并不显著时,通常会从最终的模型中省略它。然而,作者的模拟表明,在这种情况下会产生较大的偏差。一般来说,作者建议在模型中包括协变量交互项,而不管其意义如何。

4. 参考资料

  • Interaction Effects Need Interaction Controls -Link-
  • Card D, Dahl G B. Family violence and football: The effect of unexpected emotional cues on violent behavior[J]. The quarterly journal of economics, 2011, 126(1): 103-143. -PDF-
  • Yzerbyt V Y, Muller D, Judd C M. Adjusting researchers’ approach to adjustment: On the use of covariates when testing interactions[J]. Journal of Experimental Social Psychology, 2004, 40(3): 424-431. -PDF-

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 交乘项, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh