Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:付一帆 (天津大学)
邮箱:yifanfu_0912@tju.edu.cn
目录
FWL 定理 (详见连享会推文 Frisch-Waugh定理与部分回归图) 使我们能在多元线性回归模型中,得到各解释变量排除 (partialled out) 其他解释变量影响后的净效应。这引出一个问题:我们将核心解释变量和控制变量一起回归,似乎对二者并没有做任何区分,仅是在主观上更关注自变量。
那么,控制变量与核心解释变量的地位是对等的吗?对二者回归系数的解释是一致的吗?
回答这一问题的关键在于,是否在因果框架下进行讨论。在仅探讨相关关系时,控制变量和核心变量的地位平等。在因果研究的框架下,条件均值独立假设导致控制变量和核心变量地位不平等。例如,研究子女上学年限对工资的影响,线性回归模型为:
其中
此时,自变量和控制变量只不过是在主观上有所区分,实际地位对等。但是,一旦涉及到因果模型,
假设真实的因果模型如下图所示:
在回归模型
到这里,大家可能发现一个问题:控制变量
为何在因果框架下可以放松这一假定,而允许控制变量
在因果框架下,我们通常只对回归方程中的一个核心解释变量感兴趣,特别希望得到对其系数的一致估计,并将其解释为核心变量对被解释变量的因果效应。另一方面,对于方程中的其他变量本身又无太大兴趣,之所以把它们也放入回归方程,只是为了 “控制” 那些对被解释变量有影响的遗漏因素来避免 “遗漏变量偏差”。即使对控制变量系数估计不一致,我们也尚可接受。
既然我们可以容忍对于控制变量系数的不一致估计,就不必要求控制变量外生。此时,可以放松所有解释变量和扰动项均不相关的过强假定,只要求在给定控制变量的条件下,核心变量与扰动项不相关即可。
这又引出下面的问题:如何从理论上证明,核心变量与扰动项条件不相关时,可以得到核心变量的一致估计?
首先,了解独立、均值独立、不相关这三个度量随机变量不相关程度的概念对回答这一问题有所帮助。最强的概念为独立,表明两个随机变量一点关系也没有。较弱的概念为 (线性) 不相关,表明还可能存在点非线性的相关关系。二者之间还有一个中间层次的表示随机变量不相关的概念,即均值独立。
均值独立的定义是:如果
假设研究子女上学年限对工资的影响:
第一,我们并不要求扰动项
第二,条件均值独立使得在给定控制变量
第三,将扰动项
第四,将此式代入原模型可得:
第五,代入
第六,对等式
由于
具体而言,核心变量
综合上面的分析:在相关关系中,核心解释变量和控制变量地位平等。在因果框架下,由于放松了解释变量与随机误差项不相关假定,导致二者地位不平等。
具体而言,因果框架下引入条件均值独立假设,允许控制变量与扰动项相关,而只要求在给定控制变量条件下核心解释变量与扰动项不相关即可。这样,核心解释变量系数是一致估计,可以解释因果关系,而控制变量的系数只有相关性的意义,不能作为因果关系解释。
案例来源于 stock 和 watson《lntroduction to Econometrics》,这一控制变量经典案例表明:控制变量的回归系数不能作为因果关系的解释。因果关系图如下所示:
该案例考察班级规模 str 对于测试成绩 testscr 的影响。除班级规模外,测试成绩还可能受到校外学习机会 meal_pct 的影响,比如补习班等。较差的学区通常班级规模大,而校外学习机会少。为避免遗漏这一变量可能导致的遗漏变量偏差问题 (如下图),需要将其作为控制变量纳入模型。
根据美国的政策,只有家庭收入低于某个临界值 (大约为贫困线的 150%) 才能享受免费或补助午餐,因此选用有资格享受折扣午餐的学生百分率度量校外学习机会,记为 meal_pct。变量含义如下表所示:
变量 | 变量表示 | 变量名称 | 变量含义 |
---|---|---|---|
被解释变量 | testscr | 测试成绩 | 阅读和数学的平均成绩 |
核心解释变量 | str | 班级规模 | 学生/教师人数比 |
控制变量 | meal_pct | 校外学习机会 | 有资格享受折扣午餐的学生百分率 |
所用数据来源于加利福尼亚 420 个学区 1998 年和 1999 年的数据,这一数据集可以在《lntroduction to Econometrics》的 California Test Score Data 数据集中获取。相关实证分析如下:
. lxhuse caschool.dta, clear
. set linesize 80
. set cformat %4.3f
. set sformat %4.2f
. set pformat %4.3f
. sum testscr str meal_pct
Variable | Obs Mean Std. dev. Min Max
-------------+---------------------------------------------------------
testscr | 420 654.1565 19.05335 605.55 706.75
str | 420 19.64043 1.891812 14 25.8
meal_pct | 420 44.70524 27.12338 0 100
. reg testscr str meal_pct
Source | SS df MS Number of obs = 420
-------------+---------------------------------- F(2, 417) = 685.76
Model | 116644.521 2 58322.2607 Prob > F = 0.0000
Residual | 35465.0723 417 85.0481351 R-squared = 0.7668
-------------+---------------------------------- Adj R-squared = 0.7657
Total | 152109.594 419 363.030056 Root MSE = 9.2222
------------------------------------------------------------------------------
testscr | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
str | -1.117 0.240 -4.65 0.000 -1.590 -0.645
meal_pct | -0.600 0.017 -35.78 0.000 -0.633 -0.567
_cons | 702.911 4.700 149.55 0.000 693.672 712.150
------------------------------------------------------------------------------
结果表明,我们所关注的核心解释变量 str 的系数显著为负,表明班级规模越大,则测试成绩越低。由于我们将 meal_pct 从扰动项中分离出来,核心解释变量 str 与扰动项不相关。同时,FWL 定理表明核心解释变量 str 的回归系数已经剔除了控制变量 meal_pct 对被解释变量 testscr 影响, 因此 str 的系数 -1.117 是一致的估计。
控制变量 meal_pct 的系数估计值是 -0.600,不能将其解释为有资格享受折扣午餐的学生占学区总人数的百分比每降低 1%,测试成绩增加 0.600,只能解释为有资格享受折扣午餐的学生占学区总人数的百分比与测试成绩有显著的负相关关系。
实际上,即使取消免费与补助午餐的项目,使得所有学区的 meal_pct 都降为 0%,也不能提高测试成绩,甚至有些学生可能因为饥饿或营养不良导致学习成绩下降。显然,meal_pct 的系数不能解释因果关系。
之所以还要将 meal_pct 纳入模型,是为了避免遗漏校外学习机会变量,使得 str 与扰动项条件均值独立,从而得到对于核心变量 str 系数的一致估计。而对控制变量 meal_pct 本身系数的估计,我们并不看重。即使 meal_pct 很可能与扰动项相关,导致对其系数的估计并不一致,我们也可以接受,只要求得到相关性解释即可。
Note:产生如下推文列表的 Stata 命令为:
lianxh 控制变量 回归系数, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh