温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
作者:连玉君 (中山大学)
Email: arlionn@163.com
交乘项设定下的中心化问题
目录
本文曾用名「加入交乘项后符号变了!」。
在前面的几篇推文中,我们对交乘项的基本设定、图示、边际效应分析等内容进行了较为细致的分析。最近适逢很多学生写毕业论文,有关交乘项的问题又涌上心头。其中,最突出的问题便是:为何加入交乘项后主变量变得不显著了,甚至符号都变掉了?
简单的解释是:此一时,彼一时!
因为,加入交乘项前后,主变量的系数含义发生了实质性的变化,二者不具可比性。本文的目的在于澄清这种差异,并介绍一种让主变量系数在加入交乘项前后不会发生大幅变化 (具有可比性) 的方法。
对于模型
系数
当我们加入交乘项
先看
若想让加入交乘项前后的模型 (1) 和模型 (2) 中主变量 (
其中,
此时,主变量 (
大家可能更加关心交乘项的系数是否会发生变化,答案是:不会!
因为,模型 (3) 相对于模型 (2) 无非是增加了一些一阶项和常数项,而交乘项并未发生变化。我们也可以用更为正式的方式来得到这一结论。对于模型 (2) 而言,
连享会计量方法专题……
在模型 (3) 中
因此,文献中也会采用如下模型设定形式:
按照上面的分析逻辑不难看出,这个模型与 模型 (3) 没有任何本质区别,因为展开后新增的项目
其中,
需要补充说明的是,无论是采用模型 (3) 还是模型 (4),本意都是为了方便对系数的含义进行解释,并不是所谓的克服共线性之类的说辞。
参考 Balli et al. (2013, [PDF]) 文中的做法进行模拟,发现在使用交乘项时,在模型中用
Note: 这里的
*-Source:
/*
Balli, H. O., B. E. Sørensen, 2013,
Interaction effects in econometrics,
Empirical Economics, 45 (1): 583-603.
*/
/* Table 1
The true model is Y = 3X1 + 5X2 + 8X1X2 + e
where X1 = 1 + e1 and X2 = 1 + e2,
ei~N(0,1) for i = 1, 2
(X1 and X2 are not correlated) and e~N(0,100).
A constant is included but not reported.
The sample size is 500 and the number of simulations is 20,000.
Averages of estimated t statistics are shown in parentheses
*/
clear
set obs 500
set seed 135
local rhox = 0
gen x = 1 + rnormal()
gen z = 1 + rnormal() + `rhox'*x
gen e = rnormal(0,10)
gen y = 10 + 3*x + 5*z + 8*x*z + e
pwcorr y x z
center x z, prefix(c_)
*-模型 (0)
reg y x
est store m0
*-模型 (1)
reg y x z
est store m1
*-模型 (2)
reg y x z c.x#c.z
est store m2
*-模型 (3)
reg y x z c.c_x#c.c_z // Balli2013, Eq.(3)
est store m3
*-模型 (4)
reg y c_x c_z c.c_x#c.c_z
est store m4
*-结果对比
local m "m0 m1 m2 m3 m4"
local m "m1 m2 m3 m4"
esttab `m' `s', nogap replace order(x z c_x c_z) ///
b(%6.3f) s(N r2_a) drop(`drop') ///
star(* 0.1 ** 0.05 *** 0.01) ///
addnotes("*** 1% ** 5% * 10%")
----------------------------------------------------------------------------
Model (1) (2) (3) (4)
----------------------------------------------------------------------------
x 9.979*** 2.904*** 10.047***
(17.66) (4.48) (21.68)
z 12.898*** 5.450*** 13.101***
(22.53) (8.14) (27.90)
c_x 10.047***
(21.68)
c_z 13.101***
(27.90)
x#z 7.479***
(15.59)
c_x#c_z 7.479*** 7.479***
(15.59) (15.59)
_cons 3.024*** 9.792*** 2.485*** 25.275***
(3.12) (10.81) (3.12) (53.61)
----------------------------------------------------------------------------
N 500.000 500.000 500.000 500.000
r2_a 0.629 0.751 0.751 0.751
----------------------------------------------------------------------------
t statistics in parentheses
*** 1% ** 5% * 10%
. sum y x z
Variable | Obs Mean Std. Dev. Min Max
-------------+---------------------------------------------------------
y | 500 25.55029 21.10401 -33.97629 103.5704
x | 500 1.023 1.018471 -2.755543 3.808831
z | 500 .9550672 1.005523 -1.766887 3.902355
结果分析:
事实上,在很多论文中,通常会先估计 y = a + b*x, 而不是 y = a + b1*x + b2*z ,即本文的模型 (1)。如果 local rhox = 0
修改为 local rhox = 0.5
或 local rhox = -0.5
等数值,并在结果呈现部分也列示出 m0 的结果,看看系数估计值会发生哪些变化。
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟 Stata 33 讲 - 连玉君, 每讲 15 分钟. 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看,所有课程可以随时购买观看。
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 ⭐ | DSGE, 因果推断, 空间计量等 | |
⭕ Stata数据清洗 | 游万海 | 直播, 2 小时,已上线 |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会学习群-常见问题解答汇总:
✨ https://gitee.com/arlionn/WD