温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
编译: 刘聪聪 (中山大学),陈点点 (中国人民大学)
Source: Hainmueller, Jens, Jonathan Mummolo, and Yiqing Xu. "How much should we trust estimates from multiplicative interaction models? Simple tools to improve empirical practice." Political Analysis 27.2 (2019): 163-192. [PDF]
目录
交叉项探讨的是结果变量
实证研究应用中经常犯两个错误:
错误1:模型设定错误,假设交叉项的影响是线性的
错误2:数据缺乏共同支持
交叉项模型普遍设定为形如下式的回归方程:
式中,
该模型隐含了一个关键假设——线性交互作用假设(linear interaction effect assumption, 下文简写为 LIE) ,即处理变量
其含义是:
显而易见,这个假设过于严格,因为我们几乎没有理论或经验理由相信
理想情况下,为了计算处理变量
不满足以上的任何一个条件,那么条件边际效应的估计就是以函数形式对没有数据或极少量数据的区域的过度外推或内插,因此估计是脆弱的并且依赖于模型。
以下情形的数据通常缺乏共同支持:
模型(1)意味着,处理效应可以用处理变量
可见,在 LIE 假设下,
比如,当
问题提出来了,怎么解决呢?作者给出了一种非常简单又有效的办法:数据可视化,通过线性交互作用诊断图进行判断。
第一步,将原始数据按
第二步,检查
第三步,检验共同支持条件。在散点图上叠加
如果交互作用是双向的(一般模型均如此),那么要把
如下图所示,图 a 中
在散点图的基础上,作者进一步提供了箱型估计量和核估计量两种估计量,对乘法交互模型的拟合结果进行检验,并且提供了将其可视化的程序 interflex
。
这里的偏差-方差权衡在于,一方面,这些估计量减少了缺乏共同支持造成的偏差;另一方面,若交互项的影响确实是线性的,则线性模型的结果要比这些估计量更有效。
按照连续变量的分组方法进行估计,得到低中高(L,M,H)三个边际效应估计系数和相应的置信区间。如下图所示,
如果 (1)线性回归线与 L,M,H 不存在显著差异(可根据 Wald 检验判断) (2)L,M,H 在整个数据区间内分布比较均匀,不是集中在某个区域 说明满足 LIE 假设和共同支持条件,线性模型提供的是一致和有效估计量。
如果箱型估计量 L,M,H 偏离原模型的拟合线,分布在其两侧,说明条件边际作用非线性,拒绝 LIE 假设。
箱型估计量只有三个点,核估计量则呈现了数据区间内的完整曲线。如下图所示,其判断依据为:
如果核估计量结果接近一条直线,则满足 LIE 假设;如果弯曲程度很大,那么 LIE 假设不满足,线性模型结果不一致。
置信区间越宽的区域,越缺乏共同支持。
文章的主要内容是针对线性交互模型中存在的线性交互作用假设不适用和缺乏共同支持两个主要问题,分析问题的由来(模型设定错误和数据不足)及可能的影响(估计量不一致且有偏或高度依赖模型),提出了问题的识别方法(线性交互作用诊断图 LID plot)以及更有效的估计量(箱型估计量和核估计量),并且把新方法用于已有文章进行检验。
最后,作者建议分析交互作用的研究者采取以下安全措施:
命令安装 ssc install interflex, replace all
interflex outcome treat moderator [covar] [if] [in] [weight] [, options]
//选项解释
*- fe(varlist) specify fixed effects variables
*- type(string) specify the estimation strategy, including binning (default), linear, and kernal
*- vce(vcetype) specify the variance–covariance estimator; vcetype can be homoscedastic (default), robust, cluster, bootstrap, or off
*- bw(real) set the bandwidth for kernel estimations
当使用 interflex
检查LIE和共同支持假设时,其命令结构是在后面顺次加上被解释变量
各个选项的含义:
fe(varlist)
设定固定效应变量;type(string)
设定估计方法,箱型(默认)、线性和核估计量;vce(vcetype)
设定协方差矩阵类型,默认是同方差,也可以选择 robust , cluster 等;bw(real)
可以设定核估计带宽值,以提高效率。下面以作者提供的数据进行展示和说明。
. use interflex_s1.dta, clear
. twoway (sc Y X) (lowess Y X), by(D) // Plot the raw data
. interflex Y D X Z1 // Estimate a linear interaction model
当 lowess
图可以简单判断下LIE假设是否成立。之后用interflex
发现箱型估计量支持使用线性交互模型。
. use interflex_s2.dta, clear
. egen Xbin = cut(X), group(3) //生成类别变量
. twoway (sc Y D) (lowess Y D), by(Xbin)
. interflex Y D X Z1, type(kernel) bw(5.0)
当 lowess
拟合线。
可以发现,当 interflex
的核估计量检验,可以认为是符合LIE假设的。
use interflex_s3.dta, clear
twoway (sc Y X) (lowess Y X), by(D)
从散点图和 LOWESS 的拟合线中可以看出,数据存在明显的非线性边际效应。因此,运用箱型估计量进行检验:
interflex Y D X Z1, vce(r)
p value of Wald test: 0.0000
可以看到,当线性交互模型不正确时,箱型估计量与模型的拟合结果(黑色直线及阴影区域)相去甚远。
注意图底部的堆积柱状图,它显示了调节变量
与此同时,Stata 报告了 Wald 检验的 p 值。其原假设为:交互作用是线性的。拒绝原假设说明存在非线性影响,但接受原假设不一定满足LIE 假设,尤其是在小样本的情况下。
使用核估计量进一步检验:
interflex Y D X Z1, type(kernel) bw(0.345)
在选项中设定 type(kernel)
会自动通过交叉验证选择最佳带宽,但程序运行比较费时。在第一次运行结束后复制好带宽的值,放入 bw()
选项中可以提高效率。
使用核估计得到的边际效应估计量与真实的数据产生过程十分接近。
use interflex_s4.dta, clear
//控制 组别和年份 固定效应
//画出原始数据
twoway (sc Y X) (lowess Y X), by(D)
interflex Y D X Z1, cl(group)
//如果固定效应没有被控制,那么箱型统计量会有较大的置信区间
// 控制固定效应
interflex Y D X Z1, fe(group year) cl(group)
当没有控制固定效应时,发现置信区间明显很大;而当控制固定效应之后,置信区间明显变小了。
文中数据和代码 help interflex
即可得到。(注:help 文档里的数据可以自行到作者网站http://yiqingxu.org/software.html
上获得。)
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟 Stata 33 讲 - 连玉君, 每讲 15 分钟. 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看,所有课程可以随时购买观看。
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 ⭐ | DSGE, 因果推断, 空间计量等 | |
⭕ Stata数据清洗 | 游万海 | 直播, 2 小时,已上线 |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会学习群-常见问题解答汇总:
✨ https://gitee.com/arlionn/WD