控制变量越多越好吗?

发布时间:2022-07-24 阅读 4505

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:张雪娇 (中山大学)
邮箱zhangxj78@mail2.sysu.edu.com

编者按:本文主要摘译自下文,特此致谢!
Source:Whited R L, Swanquist Q T, Shipman J E, et al. Out of control: The (over) use of controls in accounting research[J]. The Accounting Review, 2022, 97(3): 395-413. -PDF- -Link-


目录


1. 引言

在没有随机分配的情况下,选择适当的控制变量对于设计一个具有明确因果效应的实证检验至关重要。然而,与其他方法学问题相比,控制变量在会计研究中的重要性似乎未得到充分重视。

我们评估了会计研究中控制变量使用的演变,并讨论了研究人员在选择控制变量时应考虑的一些问题。通过模拟,我们认为 “更多控制变量” 并不总是更好,一些控制变量可能会引入偏差。最后,我们为未来的会计研究提供了一些实践性的建议。

2. 控制变量的重要性

2.1 控制变量在会计研究中的使用

作者通过梳理 1980-2020 年发表在 The Accounting ReviewJournal of Accounting and Economics,以及 Journal of Accounting Research 上的文章发现,虽然会计类文献也有使用 “准自然实验” 或 “外生冲击” 方法的趋势,但研究人员仍然更多依赖控制变量来识别因果关系。

与此同时,回归变量的个数从 1980-2000 的平均 6 个,上升至 2020 年的 16 个。总体来看,我们观察到研究人员越来越依赖基于回归的分析,并使用更多的控制变量,但关于回归结果对控制变量的敏感性研究并没有增加。

2.2 遗漏变量偏误和因果图

单变量的回归分析不太可能得出处理 X 对结果 Y 的无偏估计。由于 X 和 ε 之间相关性所产生的内生性问题被称为遗漏变量偏误 (OVB),通过从误差项 (ε) 提取 Z 构造多元回归可以缓解 OVB。但鉴于会计研究中的大多数处理方法都是自选择或非随机分配的,因此研究人员必须准确的指定适当的 Z,才可以正确识别出 X 对 Y 的因果影响。

为了构建明确的因果模型,研究人员可以借助因果图来帮助识别遗漏变量的来源、理解因果关系,从而制定合适的模型进行研究。我们用以下因果图来示例变量之间的因果关系:

在上图中,A 导致 B,B 导致 C,C 导致 D 和 E,D 也导致 E。如果我们感兴趣的是 D 对 E 的影响,则 C 作为混杂因素,必须要控制。如果感兴趣的是 C 对 E 的影响,则 D 不应该被控制,因为 D 是 C 和 E 之间关系的中介。实际上,回归不能告诉我们是 C 导致 E 还是 E 导致 C,回归只是在给定条件下对相关性的估计,只有理论才能为因果关系提供说明。

2.3 识别好和坏的控制变量

根据 Angrist 和 Pischke (2009) 提供的经验法则,“好” 的控制变量是指在确定处理变量 X 时就已经固定的变量,而 “坏” 的控制变量则是那些本身就是结果变量的变量。一般来说,如果潜在控制变量是在处理变量 X 之后才确定的,那么研究人员应考虑其是否适合。因为位于处理变量 X 和结果 Y 之间的因果路径上的变量不能保证当 X 变化时可以保持不变。

3. 好控制和坏控制的描述

为了具体说明 “好” 控制和 “坏” 控制,我们提供了两个例子来证明控制变量对因果效应估计的影响。第一个例子采用包含注册会计师认证状态、会计师技能和收入的模拟数据集。第二个例子使用有关审计师类型、客户规模和审计费用的档案数据。

在第一个例子中,变量包括:内在的会计技能 Skill、注册会计师 CPA 和收益 Earnings。在第二个例子中,变量包括:是否四大审计机构 Big 4,审计费用自然对数 ln(Fee),总资产自然对数 ln(Asset)

3.1 混杂变量

术语 “混杂” (Confounders) 是指影响 X 和 Y 之间因果关系的变量,或为 X 和 Y 之间因果关系提供另一种解释的变量。在控制变量中包含混杂变量有助于缓解遗漏变量偏误问题。

假如现在要探究的问题是:四大审计机构是否收取更高的审计费用?众所周知以下几个事实:

  • 四大审计师收费更高;
  • 大客户倾向于选择四大审计师;
  • 大客户的审计成本更高。

三者之间的关系可以由如下因果图来表示:

在此例子中,客户规模是影响审计费用和审计师选择的共同因素,所以客户规模在这里就代表混杂因素。对比模型中没有纳入混杂因素的结果 (详见下表),在控制客户规模 ln(Asset) 后,四大审计机构变量 Big4 的系数由 2.33 急剧下降至 0.55,说明了包括混杂结构控制的重要性,特别是当混杂变量对 X 和 Y 都有强烈的影响时。

3.2 中介变量

虽然混合控制可以改善因果估计,但 “中介” 变量 (Mediators) 可以通过 “阻止” X 影响 Y 的路径,来改变对 X 和 Y 之间关系的解释,造成因果估计的偏差。同样,以审计数据为例,来看中介变量的作用。

假如现在要探究的问题是:大公司是否支付更高的审计费用?由下图可知,客户规模可以通过两条 “路径” 影响审计费用。一是客户规模增加了审计工作,从而增加了审计费用 (即直接影响)。二是大客户更有可能选择更昂贵的四大审计机构,从而增加了审计费用 (即间接路径)。

由下表可知,在考虑了公司规模通过选择审计机构影响审计费用的路径后,即加入中介变量 Big4ln(Asset) 的系数变小了。事实上,列 (2) 对 ln(Asset) 的估计是有偏的,而 Big4 的估计是无偏的。因此,研究人员在借鉴现有文献或根据控制变量系数显著性来判断模型是否合适时应更加谨慎。

3.3 对撞变量

对撞变量 (Colliders),作为 Y 的结果变量,通常会削弱因果推断。例如大公司是否更倾向于选择四大审计机构?由因果图可知,审计费用 (Z) 是处理变量 (X) 和结果变量 (Y) 的结果。因此,Z 不应该 (也不可能) 在改变 Y 和 X 的时候能够保持不变,这是违反直觉的。然而,统计学的估计工具并不具备这种直觉,无论其是否具有实际意义,都会给出系数估计。

由下表可知,在加入 ln(Fees) 之后,ln(Assets) 的系数估计值减半 (0.10 到 0.05),产生了严重偏误。与中介变量不同,如果对撞变量与 X 和 Y 有一定的关联,则会明确地损害 X 和 Y 的因果推断。

3.4 相同结构的控制变量

“同一结构” 的控制变量指的是与 X 或 Y 不可分割的变量,因为它们在很大程度上反映了与 X 或 Y 相同的基础结构。虽然这些控制变量与中介和对撞变量类似,但不同的是它们不能清晰地放置在因果图中。因为根据定义,它们与 X 或 Y 是同时确定的 (即,它们与 X 或 Y 属于同一个类),并且会显著扭曲因果估计。

如果 Z 反映与 Y 相同的结构,则代表它是 X 的结果,此时如果控制 Z 则会产生反直觉的估计:“保持与 Y 相同结构的变量 (Z) 不变时,X 与 Y 之间的关系”。也就是说,该变量捕获了一个替代因变量,而不是一个混杂因素。如果 Z 反映与 X 相同的构造,也会出现相关问题。理论上,X 不能在保持与其基础构造相同的另一个度量不变的情况下进行变化。此时,Y 对 X 的偏导数不能捕捉 X 对 Y 的因果效应。

例如,在保持审计公司客户数量 ln(Auditor Client) 不变的情况下,研究四大审计机构 (Big4) 如何影响审计费用 ln(Fees)。由于 Big4 是审计机构规模的虚拟变量,ln(Auditor Client) 的变动很难不引起 Big4 的变化。

由下表可知,ln(Auditor Client) 变量的加入,使得 Big4 的系数由 0.55 降低至 0.17。通常具有多重共线性问题的方差膨胀因子 (VIFs) 都小于 5.0,但方差膨胀因子 (VIFs) 不一定可以诊断相同结构变量的问题,这突出了必须依赖理论来识别相同构造问题的重要性,而非依赖 VIFs。

4. 良好控制的其他注意事项

4.1 测量误差

对混杂因素的适当 “控制” 取决于对这些因素进行精确的观察和测量能力。测量误差的来源主要有:数据中的误差以及无法准确捕捉潜在理论结构的经验代理变量。

为了说明控制变量测量误差造成的影响,假设 3.1 部分中表列 (2) 捕捉了 Big4ln(Fees) 的真实影响。在此基础上,通过对控制变量 ln(Assets) 人为增加随机噪音来模拟在控制变量存在测量误差的情况下,回归结果的不同。

由下图可知,在没有噪声 (测量误差) 的情况下,Big4 估计值为 “真实” 效应。然而,随着噪声的增加,ln(Assets) 的影响逐渐衰减为零。更令人担忧的是,随着 ln(Assets) 系数估计值趋近于 0,Big4 的效应被严重高估,逐渐向 3.1 部分中表列 (1) 收敛,即没有控制变量的情况。

随着控制变量噪声的增加,它实际上成为一个与 X 和 Y 不相关的随机变量,从而重新引入遗漏变量偏误 (OVB),造成 X 系数的估计偏差。因此,控制变量 Z 可以有效解决 OVB 在很大程度上取决于 Z 捕捉基础结构的准确度。对于高度相关的混杂结构,研究人员可以考虑使用多种可操作的措施 (例如,同时控制公司规模与资产、收入和股权)。

4.2 仅与 Y 或 X 相关的变量

4.2.1 变量仅与 Y 相关

对于仅仅影响 Y,但对 X 没有影响的控制变量,在随机实验 (或自然实验) 中很常见。虽然无偏估计不需要这些 “伪影变量” (Carlson 和 Wu,2012),但是将它们作为控制变量加入回归函数,也可以通过减少 Y 中未解释的变化来提高估计精度。

4.2.2 变量仅与 X 相关

控制变量也可能仅直接影响 X,但与 Y 没有直接关系。将此类变量作为控制变量的效果取决于因果关系的本质,具体存在两种情况。第一种情况,控制变量 Z 仅与 X 相关,但 Z 通过 X 与 Y 相关,这种情况反映了 Z 作为工具变量的主要条件。虽然 Z 可能是 X 的一个好工具变量,但在这种情况下它并不能作为一个有用的控制变量。

这里以注册会计师的数据进行举例。假设注册会计师预备课程 (CPA Prep) 除了通过增加获得注册会计师资格 (CPA) 的可能性来影响会计师的收入 (Earnings) 以外,不会以任何其他方式影响会计师的收入。

假设只有 CPA 会对 Earnings 产生影响,因此下表的两列回归结果都是无偏估计。但是对比两列结果,虽然 CPA Prep 没有实质性的影响,但是它降低了变量 CPA 估计精度。这是因为 CPA PrepCPA 有强烈预测作用,但相对于仅包括 CPA 的回归模型来说,加入 CPA Prep 没有增量模型的解释力,但却增加了标准误。

第二种情况,控制变量 Z 与 X 相关,但与 Y 无论是直接或是间接都不相关。这种情况下,Z 对 X 预测的部分与 Y 无关,这就类似于测量误差。因为是 X 的测量部分,不显示与 Y 的预测关系,那么控制与 X 中测量误差相关的 Z 可以将部分消除 X 中的测量误差,从而更准确地估计 X 对 Y 的影响。

4.3 固定效应

固定效应是一系列 “虚拟” 控制变量,因此 “固定效应” 也属于控制变量的讨论范围。固定效应将组内 (例如,公司、行业、年份) 处理变量 X 和结果变量 Y 的变化分离开,因此在某些情况下它可以改善因果解释。然而,它们也可以分离出不可概括的变异或内生的变异。

4.3.1 分离不可概括变异的固定效应

假设我们想要探究审计委员会会计专家 (以下简称 ACAE) 对欺诈事件 (Fraud) 的影响。如果不随时间变化且不可观察的公司因素 (如文化) 与 ACAEFraud 相关,那么就需要在回归中加入公司固定效应。

由下表可知,与不包含固定效应的结果相比,加入固定效应之后,ACAEFraud 的抑制作用由 -4.32 下降至 -1.71。这是因为固定效应分离了 ACAE 在公司组内的变化的影响。

4.3.2 分离内生变异的固定效应

在某些情况下,固定效应还可以分离组内的内源性变异。继续上面的 ACAE 的示例,假设公司倾向于在发生欺诈事件后增加 ACAE 来缓解公司治理问题。

由下表可知,当加入固定效应之后,ACAEFraud 的负向影响远远超过其真实效应。这是由于因欺诈而增加 ACAE 的公司,在事后欺诈很少发生。因此,列 (2) 中 ACAE 的负系数捕捉了触发增加 ACAE 的欺诈事件的反向因果关系,这说明固定效应可以放大变量之间的内生关系。

4.4 控制交互项变量

在会计研究中,经常使用 X×I 来研究变量 I 对 X 与 Y 间关系的调节作用。如果 X 和 Z 相关,交互项 X×I 也与交互项 Z×I 相关。因此,如果 Z×I 影响 Y,那么不包含 Z×I 可能导致遗漏变量偏误 (OVB)。

例如,我们可以通过以下模型来检验 Event 是否会调节 ROAOutcomes 之间的关系。由于资产回报率 ROA 与资产ln(Assets) 和内部控制缺陷 Weak相关,即使 Event 与控制变量不相关,ROA × Event 也会与 ln(Assets)/Weak × Event 相关,如果模型不包括 ln(Assets)/Weak × Event 作为控制变量,那么模型就可能会遭受遗漏变量偏误问题。

5. 总结

虽然准自然实验得到越来越多地应用,但我们希望研究人员可以继续依赖统计控制和观察数据进行因果推断。因此本文根据以上内容总结了以下几点较为通用的建议,希望可以为后续相关研究提供帮助:

  • 从 Y 和 X 之间的简单相关性开始,并找到对于 X 和 Y 关系的替代解释 Z
  • 使用因果图来识别因果机制;
  • 考虑变量测量的时机——“良好” 的控制需要捕捉处理前处理变量 X 的结构;
  • 根据模型所包含的控制变量来进行解释——研究人员应考虑在改变 X 或 Y 的同时,保持 Z 恒定是否可行。如果不可行,则证明 Z 很可能是一个 “坏” 控制变量;
  • 考虑控制变量中的测量误差;
  • 考虑控制交互项的潜在需求;
  • 尝试在模型中包含或不包含某些控制变量——许多变量同时包含 “好” 和 “坏” 的方面;
  • 尝试利用似然随机变动——似然随机变动不需要控制变量进行无偏估计。

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 控制变量, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh