温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
连玉君 (中山大学, arlionn@163.com)
张静瑶 (浙江海洋大学,1132358871@qq.com)
目录
同主题阅读:
两小儿辩车
王小儿:我发现车越长越贵,比如,奥迪 A6L 就比 A4L 贵多了;
李小儿:那也未必,奥迪 R8 只有 4 米 4,但可以买两辆 A6L了。 还有,我二爸开的那个公交车,12 米,才 30 万!
为什么车长与价格之间的关系并不"固定"?也就是说,如果用价格对车长回归,那么 R8,A6L,公交车会有显著的差异。
在大家做实证分析的最初阶段,经常会有一个困扰:原本主效应很符合预期目标,但加入了一个或几个控制变量后,主效应要么符号变了,要么不显著了。可是,关键控制变量不加入的话,审稿人必然会提出质疑。这是怎么回事了? 要回答这个问题,让我们先从条件期望说起。
春节临近,如何应对亲戚的"问候杀",是一个亟待解决的现实问题。试想,举国欢庆的日子,大家齐坐一堂,面对读硕读博归家的你,七大姑问到:"大闺女,老大不小了,该干点正事谈个对象什么的呢,读那么多书干嘛呀",你咽了咽口水"读书好啊,以后可以多挣钱孝敬您老人家",话音未落,八大姑道:"哎呀瞎说,你看隔壁二狗子,高中没读完去做生意,现在赚老多钱了"….气氛顿时尴尬了,除了咽口水外,该怎么"杠"回去…
那就要了解条件期望的概念了:条件期望函数记为
图中,横轴表示受教育水平,纵轴则为收入,在每一个给定的受教育水平下(如:受教育年限 12 年),收入服从一个近似正态的随机分布。可以看到,由于存在着无法忽视的个体差异,使得某些低教育者的收入要高于某些高教育者的收入,但通常而言,教育水平高的人赚的更多。
看到这里,学习过初级计量经济学的同学肯定会想到,对,是"个人能力"的影响,是"个人能力"让二狗子和大闺女产生了收入的差异。确实如此,那么"个人能力"便是一个需要控制的重要变量。
让我们回到"小儿辩车"的引子。调入官方自带的汽车数据,研究汽车长度 length 对汽车价格 price 的影响。在多元回归中,加入的控制变量分别为里程数 mpg 和汽车重量 weight
利用外部命令 reganat
(Filoso, 2013) 或 reganat2
对多元回归模型的系数进行图示:
. sysuse "auto.dta", clear
. cap eststo clear
. eststo: reg price length
. eststo: reg price length mpg weight
. esttab, nogap
. reganat price length mpg weight, dis(length) ///
. biscat biline scheme(s2color)
虚线拟合线表示了不加入控制变量时 length 的影响,而实线是加入控制变量之后的。由之初的右上倾斜变为右下倾斜,这是一个本质性地改变。
--------------------------------------------
(1) (2)
price price
--------------------------------------------
length 57.20*** -104.9**
(4.06) (-2.64)
mpg -86.79
(-1.03)
weight 4.365***
(3.74)
_cons -4584.9* 14542.4**
(-1.72) (2.47)
--------------------------------------------
N 74 74
--------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01
对比 length 的系数可见,在一元回归时该系数显著为正(57.2),而加入控制变量后,系数为负(-104.9)并在 10% 的水平下显著。
若真实的回归模型为
先进行正常的多元回归,加入主效应变量 length 和控制变量 mpg weight
sysuse auto.dta, clear reg price length mpg weight est store m1
接着,我们利用解构回归(regression anatomy)(参考《基本无害的计量经济学》)来"解读"正常的多元回归:1.先用 length 对控制变量 mpg weight 进行回归,然后可以得到一个残差项。2. 再用被解释变量对上一步的残差项进行回归。
. reg length mpg weight
. predict e, res
. reg price e
. est store m2
. esttab m1 m2 , nogap.
--------------------------------------------
(1) (2)
price price
--------------------------------------------
length -104.9***
(-2.64)
mpg -86.79
(-1.03)
weight 4.365***
(3.74)
e -104.9*
(-2.22)
_cons 14542.4* 6165.3***
(2.47) (18.46)
--------------------------------------------
N 74 74
--------------------------------------------
t statistics in parentheses
* p<0.1, ** p<0.05, *** p<0.01
可以看到,最后得到的主效应估计结果一致,均为 -104.9 。在用 length 对控制变量 mpg weight 回归后得到的残差项,表示 length 剔除了其他解释变量对自己的影响的"结果",将其再与被解释变量的回归就是一个"净"的效应。
可见,加入控制变量后,我们关心的估计系数是否会产生变化,取决于与控制变量之间的独立性。
我们列出将会出现的四种情形
若需进一步分析各个解释变量的相对重要性,可以参考 「R2分解:相对重要性分析 (Dominance Analysis)」 (微信版),以及「连玉君-如何比较解释变量的系数相对大小?」。
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟 Stata 33 讲 - 连玉君, 每讲 15 分钟. 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看,所有课程可以随时购买观看。
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 ⭐ | DSGE, 因果推断, 空间计量等 | |
⭕ Stata数据清洗 | 游万海 | 直播, 2 小时,已上线 |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会学习群-常见问题解答汇总:
✨ https://gitee.com/arlionn/WD