FWL定理:残差能否作为被解释变量?

发布时间:2022-08-04 阅读 1518

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:韩杰 (暨南大学)、唐奕可 (湖南大学)
邮箱han_ovetk@foxmail.com

编者按:本文主要摘译自下文,特此致谢!
Source:Chen W E I, Hribar P, Melessa S. Incorrect inferences when using residuals as dependent variables[J]. Journal of Accounting Research, 2018, 56(3): 751-796. -PDF-


目录


两步回归法是实证会计与金融研究中的常用手段。研究人员通常使用普通最小二乘法将一个因变量分解为预测和残差两部分,并将残差部分作为第二次回归的因变量。然而这一方法计算的系数和标准误是有偏的,并且偏差的大小是模型中回归变量相关性的函数。

1. 引言

会计和金融的许多研究检查了各种变量的异常的决定因素,或无法解释的组成部分。例如,可操控性应计利润、超额薪酬、异常股票回报等。这些研究的典型做法是,先进行第一步 OLS 回归,然后将残差 (未预期部分) 作为第二步的因变量回归。

当第二步回归中包括许多控制变量时,上述做法是有问题的。这主要是因为偏差的性质 (膨胀、衰减或符号变化) 取决于第一步和第二步中回归变量相关性的符号和强度。通过模拟分析,作者认为当回归变量之间存在更强的相关性时,偏差可能更加严重。

2. 会计研究中的两步回归框架

2.1 会计研究中的两步回归框架

首先,使用 OLS 将给定变量划分为解释和未解释两部分:

其中,Total_Y 可以是审计费用、高管薪酬、应计利润总额或其他因变量,Explained_Y 是 Total_Y 的可预期部分,Unexplained_Y 是 Total_Y 的未预测部分。然后,将 Unexplained_Y 对感兴趣变量 VOI,或 VOI 加一组控制变量回归。

研究人员将 β1 解释为 VOI 对 Total_Y 的单位异常影响。

需要注意的是,本文的研究结果不适用于:

  • 两阶段最小二乘 (2SLS) 方法:该方法将第一阶段回归的预测值作为第二阶段回归的自变量,以解决内生性问题;
  • 不适用于第一步回归的残差作为第二步回归的自变量。

2.2 两步法在会计研究中的应用

Beaver (1987) 回顾了两步法的使用情况,并指出在这段时间内 (20 世纪 60 年代至 80 年代中期),两步法在剩余证券收益的研究中最为普遍。与此同时,Beaver (1987) 认为在这些两步回归中,式 (2) 中 VOI 的系数估计偏向于零。尽管 Beaver (1987) 证明了衰减偏差,但两步回归方法的使用自那以后越来越受欢迎,并扩展到会计研究的各个领域。

据作者统计,在 2011 年至 2015 年期间,CAR、JAE、JAR、RAS 和 TAR 等期刊发表了 61 篇采用这一方法的论文。其中,最多被分解的变量是应计项目,共有 24 项研究。除此之外,被分解变量还包括:实际活动管理 (7 项)、永久账面税差异 (4 项)、审计费用 (4 项)、收益 (4 项)、薪酬 (3 项) 和投资 (2 项)。

3. 两步回归分析的结果

首先,使用 FWL 定理 (Frisch–Waugh–Lovell) 来证明一个简单两步模型产生的系数偏差。为了便于理解,这里先假设只有两个独立变量,总体回归方程如下:

上述方程的 OLS 回归可以写成:

其中,x2 是 VOI 或感兴趣的变量。在高斯-马尔科夫假设下,系数 β^1β^2β^3 是 β1β2β3 的无偏估计。FWL 定理证明了 β2 的无偏估计不仅可以通过式 (5) 得到,而且还可以通过一个简单的两步回归得到。第一步,估计模型如下:

第二步,将式 (6) 的残差 u~i 对「x2 对 x1 回归的残差」进行回归,估计模型如下:

其中,r2 为 x2 对 x1 回归的残差,估计模型如下:

在这里,式 (7) 得到的 β^2 系数和标准误差与式 (5) 几乎相同,因此这两种方法是等价的。式 (7) 中 β^2 可以表示为 Cov(r2,u~)/Var(r2),用 (x2α~0α~1x1) 替换 r2,由于 u~ 正交于 x1,分子可以简化为 Cov(x2,u~)。因此,β^2 可以重新表示为 Cov(x2,u~)/Var(r2)

在实证会计和金融研究中,常用的两步估计方法包括一个类似于式 (6) 的第一步回归,以及一个如下形式的第二步回归:

式 (9) 的 βˇ2 可以表示为 Cov(x2,u~)/Var(x2)。这个表达式的分子与式 (7) 中 β^2 表达式的分子相同,分母 Var(x2) 至少与表达式 β^2 的分母 Var(r2) 一样大。特别地,由于 r2 为式 (8) 的残差,当 x1 和 x2 之间的协方差不为零时,Var(x2) 将大于 Var(r2)。因此,给定 x1 和 x2 之间的非零协方差,常见的两步法在估计 β2 时会产生衰减偏差,并且这个偏差随着 x1 和 x2 之间协方差变动。

请注意,当使用第一步回归产生残差,并在第二步使用 t 检验观察对照组和处理组之间的平均值差异时,这个简单模型产生的偏差也适用 (例如,检验参与增发股票的公司和控制组公司的异常应计利润的平均水平是否不同)。这里,均值t检验等价于第二步回归,其中第一步回归的残差在识别两组样本的指标变量上回归。如果指标或划分变量与任何一个第一步回归变量相关,指标变量的系数估计和 t 统计量将会有偏差。

由于两步法产生的系数偏差是衰减偏差,y 和 x2 之间关系的大小是被低估了。同时,两步法计算的标准误差和 t 统计量也是有偏差的。综上所述,当第二步回归中没有控制变量时 (正如 60—80 年代会计研究中常见的那样),系数估计、标准误差和检验统计量都会偏向于零。进一步,本文也证实了当控制变量包含在第二步回归中时 (这在最近几十年变得流行),两步法依旧会造成偏差。

4. 解决方案

有几个简单的方法可以缓解两步回归中产生的偏差:

  • 在一个单步回归中估计所有变量的系数,而不是两步回归;
  • 根据 FWL 定理,第一步利用式 (6) 和式 (8) 得到残差,第二步利用式 (7) 来估计系数;
  • 利用第一阶段的回归残差,对第二阶段所有协变量和第一阶段所有协变量进行回归。

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 回归 盈余, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh