Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:伊凌雪 (中央财经大学)
邮箱:yilingxue99@163.com
目录
在调节效应模型中,如果我们主要关注的是核心解释变量的交互项,那么对于控制变量是否需要进行交乘呢?关于该问题,本文以一篇 2011 年发表在 QJE 上的论文作为示例进行说明,该论文主要研究了美国橄榄球赛季 (简称 NFL) 周日比赛结果与家庭暴力之间的关系。
论文的研究结论表明,在控制赛前积分差 (最喜欢的球队有望赢得的积分数) 和当地观众的规模 (有多少当地人在电视上观看了比赛) 后,如果主队输掉了一场胜券在握的比赛,当地家庭暴力 (男性对妻子或女朋友) 的发生率会上升 10%。相反,如果人们已经预料到比赛会输就不会导致类似的结果,但是比赛胜利也不会减少家庭暴力,说明输赢对个体情感具有不对称的作用。上述行为类似经济学中 “参照点理论”:即人们情绪波动来自于事实与预期之间的偏差,意料之外的损失更容易让人情绪不稳定。
文章的主要回归结果如下表所示,以 NFL 比赛后的家庭暴力作为因变量。从第 (1) 列到 (5) 列,依次包含更多控制变量,每一列代表不同的 (泊松) 回归结果。
根据赛前预测 (以赔率衡量),第一行第 (5) 列输掉比赛与预期会赢得比赛交互项 Loss × predicted win(upset loss) 的估计系数为 0.10,对应于主要结论中提到的暴力增加 10%。相比之下,第二行第 (5) 列 Loss × predicted close(close loss) 估计系数为 0.026,表明当对阵双方的实力不分伯仲,输掉比赛就不会导致类似的结果。
在第 (5) 列中,作者控制了观看当地比赛的家庭数量。尼尔森收视率 (由全球著名的市场调研公司尼尔森统计出的数据) 是影响比赛日家庭暴力的一个重要因素 (t = 2.2),观看比赛的家庭数量每增加 1%,亲密关系暴力 (intimate partner violence) 发生的几率就会上升约 0.3%。
正如 QJE 论文所指出的,这一发现令人担忧的是:当人们预期球队有望获胜时,观看比赛的人自然会更多。 这意味着有更多的人可能面临意料之外的输球结果,而不是预料之内的结果。因此,对于面临意外输球的结果后家庭暴力的增加主要有两种解释:
然而,上面表 IV 中的第 (5) 列通过控制收视率 (尼尔森评级) 来区分这两者,这样的控制对于文章关注的重点显然是不够的。如果我们关注的问题是观看任何比赛的球迷人数越多,家庭暴力就越多,那么仅仅控制尼尔森评级将会是正确的解决方案。然而,在该论文中我们关心的是不同的内容,我们主要担心的混淆问题是观看一场输球比赛的粉丝人数越多,家庭暴力越多。
一般来说,由于我们感兴趣的主要是交互项系数,因此任何的替代解释也必须涉及交互作用。在这种特殊的情况下,如果主要关注的效应涉及和输球队伍之间的交互项,那么控制变量也必须与输球队伍进行交乘。所以,当我们预期在比赛赢或输的情况下控制收视率可能产生不同的影响,就需要将控制变量与输掉比赛进行交乘,即在原来的基础上再添加 Nielsen Rating×Loss 这一项作为预测变量。以下面通用回归方程为例:
如果我们主要感兴趣的是
那么,当我们担心第三个变量
相反,需要同时控制
事实上,这是一个比较普遍的问题,然而对控制变量进行交乘似乎不是研究人员普遍意识到的问题。总之,当感兴趣的系数是一个交互项,并且对于潜在混淆问题比较担忧时,需要对控制变量进行交乘。
根据上述做法,原作者将控制变量交乘后进行重新回归,得到的结果显示添加交互项不会明显改变估计系数的大小。具体来看,添加这些交互项并不会明显改变对沮丧输球变量的点估计:它变为 0.095 (0.056) [大约 p 值 = 0.09]。这与 QJE 论文中报告的当只控制 Nielsen 评级时估计值 0.100 (0.031) [大约 p 值 <0.001],以及当完全不控制 Nielsen 评级时 0 .096 (0.031) 相比。
有趣的是,Nielsen rating×loss 和 Nielsen rating × win 的系数几乎相同:分别为 0.0031 和 0.0034。此外,我们对损失厌恶进行测试 (若 upset loss = – upset win),现在的 p 值为 0.02,而之前为 0.01。所以我们的结论是添加评级的交互项会导致估计不太准确,但不会显著改变估计。
根据前面的问题,将控制变量进行交乘似乎存在一定的道理,但我们还是无法十分清楚了解为什么在调节效应模型中需要对控制变量进行交乘。另一篇发表在 JESP 上的论文同样涉及到这个问题,作者据此给出了相关解释。
文章中提到,社会心理学中一个常见的设计包括使用两个自变量,一个实验操纵和一个测量的个体差异,我们主要感兴趣的是它们之间的交互项。在这样的设计中,通常存在协变量 (s) 与估计的自变量相关,而研究人员通常在模型中添加协变量来对其进行控制。作者表明,在大多数情况下这是一个不充分的模型。一般来说,只有当协变量和被操纵的自变量之间的交互项纳入分析时,才能无偏地估计两个自变量之间的相互作用。作者据此进行了模拟,结果显示了影响偏差大小的因素。
这里通过设定一个模型来解释:
首先,假设
接着,我们假设有一些测量的协变量
最后,假设
在公式中,
当估计
问题是
因此,只有在两种情况下,错误指定的模型 (
第一个是当
另一个估计模型错误的情况是,忽略
因为
为了进一步验证这种偏差的存在,作者进行了蒙特卡罗模拟,结果必然与上述分析结果相一致。在这些模拟中,作者特别关注第一类错误。因此,在真实的模型 (4) 中:
作者将
我们允许这两个因素发生变化,因为根据上述的推导表明,它们决定了
下表报告的为
下图报告的概率,是在省略
另一组结果表明,在正确的模型中,我们可以评估
文章模拟结果说明了错误模型会导致估计结果的偏差。作者改变了推导显示的两个影响偏差大小的因素:一方面是协变量和与之相关的自变量之间的关系,另一方面是协变量交互作用的真实影响。当这些因素偏离 0 时,如果不加入协变量的交互项就会导致有偏估计和第一类错误的出现。当我们发现协变量交互项并不显著时,通常会从最终的模型中省略它。然而,作者的模拟表明,在这种情况下会产生较大的偏差。一般来说,作者建议在模型中包括协变量交互项,而不管其意义如何。
Note:产生如下推文列表的 Stata 命令为:
lianxh 交乘项, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh