控制变量!控制变量!

发布时间:2021-09-06 阅读 440

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

秦利宾 (厦门大学), qlb150@163.com
许嘉婷 (厦门大学), 13262590189@163.com

编者按:大家还记得连享会推文「PSM-倾向得分匹配分析的误区」曾经介绍的一篇文献「Propensity score matching in accounting research」吗?文章的三个作者 Jonathan E Shipman、Quinn T Swanquist、Robert L Whited 又在 The Accounting Review 发表了一篇计量方法在会计领域应用的评述。为帮助大家更好地了解相关内容,本文将对原文进行简单地翻译整理。
Source:Whited R L, Swanquist Q T, Shipman J E, et al. Out of Control: The (Over) Use of Controls in Accounting ResearchOut of Control[J]. The Accounting Review. -PDF- -Link-


目录


1. 引言

大量的实证会计研究试图建立治疗 (X) 与结果 (Y) 的因果关系。但是,使用非实验数据面临的一个重要问题是,如何排除变量间的其他替代性解释。为此,研究者通常会使用控制变量 (Z) 来控制 X 和 Y 之间的混淆因素。若是忽略某个混淆因素,则可能产生遗漏变量偏误问题 (omitted variable bias, OVB),这在会计研究中是常见的。为缓解遗漏变量偏误问题,研究者会将较多控制变量纳入到回归模型中,Bertomeu (2016) 称之为 “kitchen sink approach”,直译为 “厨房水槽法”,即厨房所有东西都可以放到里面。当然之所以如此,很大程度上是由于 “更多的控制变量能够提高模型识别准确度” 的观念导致。实际上,当我们引入一些控制变量的时候,往往会引入 “控制变量偏差”,进而隔离或打开 X 与 Y 之间不必要的路径。即使是一个 “好” 的控制变量,也必须经过准确度量才能够有效缓解遗漏变量偏误。

在本文中,我们将提供一些使用控制变量的建议,以更好识别因果效应。首先,我们回顾了会计顶刊中控制变量的应用。然后,使用因果图来说明变量间的期望关系,以试图说明一个控制变量在何种条件下是合适的,或者不合适的。统计软件并不会清晰的告诉我们到底是 X 导致了 Y,还是 Y 导致了 X,抑或是 Z 混淆了上述关系。相反,理论会告诉我们潜在的因果关系方向,以及对统计的解释。同样地,Z 与 X 或者 Y 存在相关性,也并不意味着将 Z 纳入到回归模型中可以改善因果效应的准确识别。在研究 X 对 Y 的因果效应时,研究者应该将与 X 和 Y 相关的因素且不是二者的结果因素 Z 放入到回归模型中。若是将受 X 和 Y 影响的因素 Z 放入到模型中,则会有偏估计 X 对 Y 的影响。为了更好地对上述问题理解,本文使用模拟数据「注册会计师资格执照」和档案数据「审计客户特征」进行演示。

接着,我们讨论了几个提高控制变量选择与测量的问题。首先,我们讨论了控制变量为什么需要准确地构造才能有效。其次,我们解释了引入与某个与 X 或 Y 相关的变量也是有帮助的,尽管其不是真正的混淆变量。再其次,我们讨论了固定效应在不同条件下的结果。固定效应可以理解为虚拟控制变量,主要用于识别数据组内变化。最后,我们讨论了在 X 与一个调节变量 I 交互的情况下,控制变量的重要性。在这种情况下,调节变量 I 与某个控制变量的交互可能会与感兴趣的交互项相关,如果排除在模型之外,则会导致遗漏变量偏误。

2. 控制变量的重要性

2.1 在会计研究中的应用

我们回顾了 1980 年到 2020 年发在 The Accounting ReviewJournal of Accounting and EconomicsJournal of Accounting Research 的文章,发现以下趋势:

  • 以回归为基础的研究,从 1980-2000 年的 25% 增加到 2005-2020 年的 68%;
  • 在回归分析中,控制变量的平均数量从 1980-2000 年的 6 个增加到 2020 年的 16 个 (其中,控制变量的数量是根据文章中包含最多变量的模型计算);
  • 尽管如此,文章中不报告控制变量系数的比例从 1980-2000 年的 13% 上升到了 2005-2020 年的 22% (在 2020 年,这一比例为 26%)。

2.2 遗漏变量偏误与因果图

考虑以下模型:

如果上述模型遗漏了同时影响 X 和 Y 的因素 (cov(X,ε)0),则 X 对 Y 的估计系数 β^1 是有偏的。此时,研究者可以将同时影响 X 和 Y 的因素 Z 纳入到模型中,以缓解遗漏变量偏误问题。在会计研究中,大多数处理都是非随机或自我选择的,研究者必须准确地识别 Z 来无偏估计 X 对 Y 的因果效应。

为了准确的构建因果模型,研究者应在因果关系图背景下考虑他们的研究问题。因果图既可以帮助研究者识别遗漏变量偏误的来源和设定正确的模型,也可以帮助读者理清研究者设计模型时所考虑的因果关系。例如 Figure 1,A 导致 B,B 导致 C,C 导致 D 和 E,D 导致 E。如果我们对 D 对 E 的影响感兴趣,则 C 是一个混淆因素。如果我们对 C 对 E 的影响感兴趣,则 D 间接影响了 C 与 E 的关系。因果关系驱动模型设计,而回归并不能告诉我们 C 导致了 E,还是 E 导致了 C。回归仅仅是简单估计系数,只有理论才能告诉我们因果关系,这也直接决定了回归模型的结构和系数解读。

2.3 识别好和坏的控制变量

在因果关系图背景下,好的 Z 代表着 X 与 Y 之间关系的另一种解释。其捕获的是导致 X 和 Y 方差共同变化的因素。如果模型中忽略了混淆因素 Z,则 X 对 Y 的因果效应是有偏的。反之,模型中包括 (1) X 或 Y 的结果,(2) 捕获与 X 或 Y 相同构造,(3) 机械地与 X 或 Y 相关等变量,则会削落因果解释。Angrist 和 Pischke (2009) 提出的一个经验法则是,好的控制是那些在我们感兴趣的 X 决定时,就已经固定的变量,坏的控制是我们实验中的结果变量。

在会计研究中,学者较少使用因果图去筛选控制变量,取而代之的是 (1) 依赖前人的文献和 (2) “厨房水槽法”,即在模型中包括尽可能多的控制变量。其中,方法 (1) 通常会从与自己研究的 Y 相同或相似,而与自己研究的 X 不同的文献中寻找控制变量。不过,即使前人文献中的模型设定正确,方法 (1) 正确的前提也是与文献中的 X 和 Y 保持相同。

与之类似,会计研究者经常在预测 Y 背景下讨论控制变量,诚然这是一个有用的因素,但在大多数情况下忽视了控制变量与 X 的关系。实际上,Y= 这种形式也在一定程度强化了对 Y 预测的认知。在上述因素作用下,我们倾向于通过 R2 或 ROC 下的面积来判断模型好坏,并以此筛选变量。但是,这种做法存在以下两个错误:

  • R2 的大小仅仅是用来评价模型对 Y 的预测能力,而非因果关系。例如,

    • 在审计费用 (Y) 对审计师特征 (X) 的回归中,只要包括客户规模 (Z),模型的 R2 就会变大。但是由于模型中可能存在其他复杂关系,遗漏变量偏误问题仍然很严重;
    • 反之,在研究市场回报 (Y) 对事件 (X) 的反映时,通常会有较低的 R2,但这并不影响因果效应的分析。
  • 坏的控制变量也可以提高模型的 R2,同时也损害模型的因果推断。例如,控制 X 或 Y 的结果变量,或者反映 X 或 Y 的相同构造变量。

3. 图示好和坏的控制变量

为了更好解释说明好的和坏的控制变量,我们将通过两个例子来分析控制变量对因果效应估计的影响。

3.1 数据介绍

第一份数据为模拟数据,包括三个变量,即先天会计技能 (Skill)、是否获取 CPA (CPA)、和收入 (Earnings),具体构造如下:

  • (A1) 创建 5000 个会计从业人员;
  • (A2) 会计从业人员中有一半拥有较高的先天会计技能,即 P(Skill=1)=0.5
  • (A3) 在那些拥有较低的先天会计技能的人群中,有 3/10 获得了 CPA,即 P(CPA=1|Skill=0)=0.3
  • (A4) 在那些拥有较高的先天会计技能的人群中,有 7/10 获得了 CPA,即 P(CPA=1|Skill=1)=0.7
  • (A5) 拥有较低先天会计技能,且没有获得 CPA 的平均工资为 50000 元,即 E[Earnings|CPA=0,Skill=0]=50000
  • (A6) 拥有较高先天会计技能的人比拥有较低的人平均工资高 15000 元,即 E[Earnings|Skill=1,CPA]E[Earnings|Skill=0,CPA]=15000
  • (A7) 获得 CPA 的人比没有获得 CPA 的人平均工资高 30000 元,即 E[Earnings|CPA=1,Skill]E[Earnings|CPA=0,Skill]=30000
  • (A8) 收入 (Earnings) 中含有随机噪音成分,这个噪音来自于均值为 0 元,标准差为 10000 元的正态分布。

第二份数据来自于 Audit Analytics Audit Fees dataset (AA) 数据库,样本包括 2003-2015 年的非金融和公用行业上市公司。变量包括三个,其中 Big4 为是否为四大会计事务所,ln(Fees) 为审计费用自然对数,ln(Assets) 为公司总资产自然对数。

3.2 混淆因素

混淆因素 (Confounders) 可以为 X 和 Y 之间因果关系提供另一种解释,因此将其包含在模型中,可以缓解遗漏变量偏误问题。为了更好地对混淆因素进行理解,我们以是否建议进入会计行业的学生考取 CPA 为例进行说明。当然,在正式建议之前,我们需要回答如下问题:

  • RQ 1a:CPA 对收入的影响是多少?

对于该问题,我们可以通过比较拥有 CPA 和没有拥有 CPA 人群的平均工资差异来给出答案。但这很可能会遗漏同时影响是否拥有 CPA 和收入的因素。例如在 Figure 2a 中,因果图展示了 CPAEarningsSkill 三个变量的关系。可以看出,CPAEarnings 的因果效应为 30000 元 (A7 设定)。为了正确识别上述因果效应,我们需要在回归分析中将 Skill 的影响从上述分析中剔除出来。因为 Skill 增加了获取 CPA 的可能性 (+0.4),同时也提高了收入 (15000 元)。具体地,我们可以通过以下两个式子来对比分析:

在 Table 2 的 Panel A 中,我们在列 (1) 和列 (2) 分别报告了 [1a] 和 [1b] 的估计结果。可以看出,由于遗漏变量,列 (1) 中的 β1 (36105 元) 高估了 CPA 对收入的真实影响 (30000 元)。列 (2) 中由于考虑了 Skill 的影响,因此无偏估计了 CPA 对收入的影响 (30348 元)。

接下来,我们再使用审计相关的数据来分析混淆因素的影响。具体问题如下:

  • RQ 1b:四大会计师事务所是否收取更高的审计费用?

众所周知,(1) Big 4 审计师收取更高的费用,(2) 大的客户倾向于选择 Big 4,和 (3) 大客户的审计成本更高,上述关系也正如 Figure 2b 所示。可以看出,客户规模是审计费用和审计师选择的共同影响因素。考虑以下模型:

在 Table 2 的 Panel B 中,我们在列 (1) 和列 (2) 中分别报告了 [1c] 和 [1d] 的回归结果。可以看出,列 (1) 中 Big4ln(Fees) 的影响系数为 2.33,再考虑 ln(Assets) 后,列 (2) 显示 Big4ln(Fees) 的影响系数下降为 0.55。以上两个案例表明,在回归模型中混淆因素的重要性,尤其是其对 X 和 Y 的预测能力较强时。

3.3 中介因素

尽管控制混淆因素可以改善因果效应估计,但是控制中介因素 (Mediators) 则会改变对 X 与 Y 之间关系的解释,进而导致系数的有偏估计。之所以如此,是因为中介因素 “阻断” 了 X 影响 Y 的路径。我们以 CPA 为例说明这个问题,并考虑以下研究问题:

  • RQ 2a:SkillEarnings 的总体影响是多少?

例如在 Figure 3a 中,RQ 2a 与 RQ 1a 的因果图完全不同。CPA 通过一条直接的路径影响收入,但是技能通过两条路径影响收入。首先,根据 A6 设定,技能通过直接路径可以使收入增加 15000 元。换句话说,我们预期一个有高技能的会计师比一个没有高技能的会计师能多挣 15000 元。其次,这种技能提高了获得 CPA 证书的可能性,从而增加收入 (A3、A4、A7设定)。我们将其称为中介 (或间接) 效应。因此,技能通过两种因果 “路径” 增加收入,技能对收入的总体影响是这两种影响的结合。

为了估计技能对收入的总体影响,我们不应该控制 CPA 对收入的影响,因为技能增加了获得 CPA 可能性。因此,CPA 代表的是技能增加收入的机制。控制像 CPA 这样的中介变量,实际上只考虑技能对收入的直接影响,这相当于 “把婴儿和洗澡水一起倒出去”,这种关系不能回答 RQ 2a 的问题。另一种方法是在一个实验中,在个体决定获取 CPA 之前,随机分配技能,总的处理效应就是 Skill=1 组与 Skill=0 组收入的差值的期望,从概念上讲,我们不能在改变技能的同时拥有证书,因为证书本身就是技能的结果。为了说明这一点,我们将 [2a] 中没有 CPA 的模型与 [2b] 中包含 CPA 的模型进行比较:

在模型 [2a] 中,β1 估计值大约为 27000 元,这衡量了技能对收入的总体影响。这个效果等于技能对收入的直接影响 (15000元),加上对获得 CPA 证书的概率 (0.40) 乘以 CPA 证书对收入的影响 (30000元)。相比之下,模型 [2b] 中 β1 估计值大约为 15000 美元,因为控制 CPA 变量就阻断了从技能到通过 CPA 获得收益的路径,从而分离出直接影响。表 3 的 Panel A 展示出与预期相符的估计。正如预期的那样,列 (1) 是对全部因果效应的估计。

然而,通过在列 (2) 中控制了技能增加收入的机制,我们只能捕捉到技能对收入的直接影响。这表明,不适当的控制,在本例中是 CPA,即使是在看似随机的处理过程中,也可能会模糊因果效应。这个设定还强调了系数估计对研究问题的重要性。例如,会计师事务所、州认证委员会或劳动经济学家可能希望知道技能是否独立于证书影响收入。在这种情况下,[2b] 将是合适的选择。

接下来,我们考虑审计费用中的中介因素的情况,并提出以下问题:

  • RQ 2b:大公司会支付更高的审计费用吗?

例如在 Figure 3b 中的因果图,客户规模通过两个 “途径” 影响审计费用。首先,客户规模增加了审计工作量,从而增加了审计费用 (即直接影响)。其次,大客户更有可能选择成本更高的四大审计机构 (即间接路径)。我们使用以下两个模型来说明:

从表 3 中的 Panel B 可以看出,公司规模与审计费用之间存在显著正相关关系。并且在列 (2),由于中介变量 Big4 阻断了公司规模影响审计费用的途径,ln(Assets) 的系数大大减小。

在上述分析中,[1b/d] 和 [2b/d] 是相同的模型,但每个模型的适当性取决于研究问题。事实上,[1b(d)] 对 Skill (ln(Assets)) 的全部影响是有偏估计,但对 CPA (Big4) 的影响是无偏估计。因此,研究者在借鉴以往文献中的模型或根据控制变量系数估计的显著性来判断模型的适宜性时,应谨慎使用。如果研究者希望估计中介效应 (即直接路径),那么他们应该相应地解释模型。

3.4 对撞因素

对撞因素 (Colliders) 是 Y 的结果,通常会削弱因果关系推理。在 CPA 的例子中,我们思考一家会计师事务所是否认为获取 CPA 就可以反映出雇员掌握的会计技能,并提出以下研究问题:

  • RQ 3a: 技能 (Skill) 熟练程度高的会计师更有可能成为注册会计师 (CPA) 吗?

Figure 4a 是 RQ 3a 的因果图,有人提出应该将 Earnings 纳入RQ 3a,因为 EarningsCPASkill 相关(并改善R2)。但是,EarningsSkillCPA 两个变量的一个结果,从这个意义上说,Earnings 不应该(也不能)保持不变。因为在控制 Earnings 不变的同时,改变 SkillCPA 是违反直觉的。然而,统计工具缺乏这种直觉,不论是否具有实际意义,都会给出一个系数估计值。为了说明加入 “对撞因素” 作为控制变量的影响,我们使用以下回归模型来说明:

从 Table4 中 Panel A 的实证结果可以看出,加入 Earnings 这个控制变量会产生严重的误导性结果。具体来看,列 (1) 报告的是 SkillCPA 影响的无偏估计值 (A3、A4 设定)。其系数显著为正,表明更高的技能使得获取 CPA 证书的可能性增加了 40%。然而,列 (2) 估计出 SkillCPA 的影响系数显著为负,表明拥有更低的会计技能的会计师更容易获取 CPA 证书,这显然不符合现实意义。上述情况出现的可能原因是,高技能的会计师和低技能会计师收入一样,而且更少可能获取 CPA 证书。

我们也以四大会计师事务所为例进行说明,并提出以下研究问题:

  • RQ 3b:大客户往往会选择四大会计师事务所的审计师吗?

我们预测大客户更可能会选择四大会计师事务所的审计师。Figure 4b 是其因果图,在这个模型中,研究者也许会加入审计费用这个控制变量 (因为这与 Y 和 X 都相关并且可以提高 R2)。然而,审计费用是客户规模和审计师类型的结果,这就使得审计费用成为模型中的对撞因素。为了说明这一点,我们使用以下模型报告估计值:

从 Table4 中 Panel B 的实证结果可以看出,加入审计费用这个控制变量之后,尽管系数估计值没有发生反转,即由正值变为负值,但是 β1 的估计值却产生了较大幅度的变化。与中介因素不同,对撞因素只要与 X 与 Y 有一定关联,就会削弱因果推断。审计费用的例子可能看起来不切实际,但对撞因素往往非常微妙。例如,在研究高管背景特征与公司业绩之间的关系时,由于控制变量通常是基于与 Y 的联系而提出的,我们可能会加入高管薪酬作为控制变量以调整 “高管激励”。然而,公司业绩至少部分决定了高管薪酬,同样 CEO 的背景特征也可能通过多种途径影响薪酬。因此,高管薪酬很可能成为一个对撞因素。

3.5 相同构造

相同构造 (Same construct) 是指与 X 或 Y 不可分割的变量,因为它们在很大程度上反映了与 X 或 Y 相同的构造。尽管这些控制变量与中介因素和对撞因素类似,但是很难把它们清晰地分离出来放到因果图上讨论,因为从定义来看,它们是同时确定的 (即,它们与 X 或 Y 性质类似),并且会显著地扭曲因果关系估计。如果 Z 反映了与 Y 相同的构造,那么它是 X 的结果,但控制它会产生一种违反直觉的估计,即 “保持与 Y 相同的结构不变,X 和 Y 之间的关系”。换句话说,该变量捕获了另一个的因变量,而不是一个对撞因素。如果 Z 反映了与 X 相同的结构,那么就会出现另一个相关问题。理论上,当保持相同基础构造的另一个度量不变时,Y 对 X 的偏导数并没有捕捉到 X 对 Y 的因果关系。

事实上,变量经常反映各种构造,使得这些相同的构造问题不如中介因素或对撞因素那么明显。为了避免这种控制,我们建议考虑 X 和 Y 背后的构造,以及 Z 是否在表面上与这些构造重叠。按结构 (例如,公司规模,盈利能力,公司治理) 分组 Z 变量可以帮助在结构水平层面评估控制,因为它可能阐明 X 或 Y 何时属于这些组之一。一般来说,研究人员不应该包括反映 X 或 Y 的 Z,除非是有意的 (例如,对比变量的预测能力)。

为了说明相同的构造概念,假设研究人员想要研究聘用四大会计师事务所 (Big4) 如何影响审计费用 (类似于 RQ 1b),那么可以保持审计公司的客户数量不变 (ln(Auditor Clients))。Big4 是一个审计师规模虚拟变量,该变量与 ln(Auditor Clients) 具有相同的构造。因此,在不改变 ln(Auditor Clients) 的情况下,很难定义不同的 Big4。我们使用模型 [4a] (与 [1b] 相同) 和 [4b] 来说明这些问题:

在 Table 5 的列 (2) 中,我们估计出 ln(Auditor Clients) 的系数为 0.11,加入 ln(Auditor Clients) 使 Big4 的系数从 0.55 大幅降低至 0.17。然而由于控制了 ln(Auditor Clients),[4b] 并没有反映四大会计师事务所审计师对审计费用的影响。当然,有人会认为可以通过变量相关性来排除,不过即使所有 vif 都小于 5.0,方差膨胀因子不一定能判断出相同的构造问题,vif 通常用于评估多重共线性。这突出了依赖理论而不是依赖 vif 来识别相同构造问题的重要性。使用 “厨房水槽” 方法构建模型通常会导致相同结构的控制变量。

4. 其他考虑因素

4.1 测量误差

对混淆因素的适当 “控制” 依靠于精确地观察和测量。然而,测量误差会掩盖了变量和预期构想之间的关系,进而限制了控制变量的有效性。因此,给定变量的测量误差不仅会使特定变量的系数估计趋于零,即所谓的 “衰减偏差”,而且通常还会导致模型中其他变量出现系数估计偏误。统计能力通常可以减少对噪声的担忧,但是大样本并不能缓解这个问题 (Westfall 和 Yarkoni,2016)。X (或 Y) 的测量误差被认为是次要问题,因为他通常会使得 X 的影响系数变得不显著。然而,Z 变量的测量误差可能会使 X 的影响系数变得显著,因为混淆 Z 变量的测量误差会增加遗漏变量偏误。

实际上,测量误差有两个主要来源。第一个来源与数据中的错误有关。当公司在其财务报表中错误地报告了报表项目金额或在数据库中输入错误的值时,就会出现这种情况。第二个来源是实证代理变量不能准确地捕捉潜在的理论结构。例如,研究人员通常用资产的自然对数来衡量公司规模的大小。然而,公司规模不仅仅是会计资产,它还包括其他方面 (如交易数量、员工数量、资产账面价值与公允价值的差异等)。这种类型的测量误差对会计研究造成了重大障碍,因为研究人员经常使用粗略的变量测量来代理复杂或微妙的结构,如财务困境 (如 Z-Score)、公司治理强度 (如 G-Index)、财务报告质量 (如异常应计利润)、或欺诈风险 (如 F-Score)。

为了更好说明测量误差的影响,我们在上文设定情景中又增加了如下设定:

  • 假设 Skillln(Assets) 准确无误的捕捉了变量的潜在结构,则 Table 2 准确估计了 CPA (Panel A) 和 Big4 (Panel B) 对 Earningsln(Fees) 的因果效应;
  • 在上述情境下,我们分别进行 1000 次回归,并逐步增加模型中控制变量 Skillln(Assets) 的噪音 (关于如何设定变量噪音,请参考原文脚注);
  • 然后,我们将这 1000 次回归结果的变量系数 (包括控制变量) 绘制成 Figure 5。

在 Figure 5 中,纵坐标为对应的估计系数,横坐标则代表控制变量的噪音程度 (从没有噪音 0 到完全噪音 1)。可以看出,在没有噪音的情况下,估计系数与 Table 2 中列 (2) 的真实估计值一致。但是随着噪音增加,Skillln(Assets) 的系数不断减小并趋于 0,而 CPABig4 系数不断增大并趋于无控制变量情形下系数值,类似于 Table 2 中列 (1)。实际上,当 Z (控制变量) 变得完全随机时,其与 XY 不再相关,以致于重新引入遗漏变量偏误问题。因此,Z 的有效性取决于其是否能够准确捕捉变量的潜在结构。一种可行的方法是,同时加入某个变量多个维度的测量,例如对于公司规模,我们可以在模型中加入资产、收入、股本等。

4.2 仅与 X 或 Y 直接相关的变量

4.2.1 仅与 Y 相关 (与 X 无关) 的变量

一个变量也许决定 Y,但是对 X 没有影响,这在随机实验中是常见的。即使是在非实验的设定中,Y 的一些决定因素也许和 X 是无关的。虽然无偏估计不需要这些变量,但将它们加入到回归方程中,可以减少 Y 的未解释变异,从而提高估计精度。我们继续拓展 CPA 这个设定来说明这个概念,SkillEarnings 无偏估计的影响不需要控制变量,因为 Skill 是随机分配的。假设存在另一个变量,即生活成本 (Cost of Living),它决定了 Earnings 但是与 Skill 无关。我们将 Cost of Living 作为控制变量加入到模型 [2a] 中,回归结果如 Table 6 中 Panel A 所示。可以看出,加入 Cost of Living 可以降低标准误差,提高估计系数的显著性。

4.2.2 仅与 X 相关 (与 Y 无关) 的变量

一个变量也许决定 X,但是与 Y 并没有直接的关系。加入这种控制变量的效果取决于这种关系的性质。

在第一种情况下,变量与 X 相关,并且通过 XY 也相关。显然,对于 X 来说这可能是一个很好的工具变量,但是这并不能成为一个有用的控制变量。比如,将注册会计师考试预备课程 (CPA Prep) 随机分配给注册会计师考试考生,这除了增加获得注册会计师证书的可能性外,注册会计师预备课程不会以任何方式影响会计师的未来收入。为了说明这一点,我们对上面的参数 A1-A8 做了两个修改:

  • 首先,我们用 CPA Prep 代替 Skill 作为 CPA (A2-A4) 的唯一决定因素;
  • 其次,我们去除 CPA PrepEarnings (A6—以前的 SkillEarnings) 之间的直接关系,这样只有 CPA 决定 Earnings

在 Table 6 的 Panel B 中,第一列是 CPAEarnings 进行回归,然后在第二列加入 CPA Prep 作为控制变量。因为除了 CPA 之外没有其他变量决定 Earnings,两列的估计值都是无偏的。虽然 CPA Prep 对第二列中 CPA 的估计没有实质性的影响,但它降低了 CPA 估计的准确性。发生这种情况的原因是,CPA Prep 强有力地预测了 CPA,但与单独包含 CPA 相比,没有增加模型的整体 R2 (没有增加解释力),这增加了标准误差。

第二种情况是 ZX 相关,但不直接或通过 XY 相关。在这样的情况下,Z 预测的是与 Y 无关的 X 分量。与 Y 无关的分量在某种意义上与测量误差相似。控制 Z 则将降低与 X 的测量误差有关的影响,减少 X 的衰减偏误,以及产生一个 XY 影响更准确的估计值 (详见 Spector 和 Brannick,2011;Carlson 和 Wu,2012)。

为了说明这一点,我们调整上面关于 SkillEarnings 的设定。我们用一个连续型变量 (Continuous Skill) 来代替 Skill,这个变量是从一个平均值为 100,标准差为 10 的正态分布中随机抽取的。Earnings 的固定组成部分是 25000 元,并随着 Continuous Skill 每增加一单位提高 500 元,其中随机组成部分是从均值为 0,标准差为 10000 元的正态分布中随机抽取的。然而,我们不直接测量 Continuous Skill,我们通过测试分数 (Test Score) 来度量。

与前面的例子类似,有一半的受试者参加了实践测试 (Practice Test),那么这些人的 Test Score 增加了 10 分。在这种情况下,Practice Test 并不影响 Continuous SkillEarnings 潜在结构。在Table 6 的 Panel C 中,第一列没有控制 Practice TestTest Score 的系数相对于 Continuous SkillEarnings 之间的真实关系 (500) 是降低的,而在第二列加入了 Practice Test 后,系数与真实关系非常接近。

4.3 固定效应

4.3.1 固定效应引入测量误差

假设我们对审计委员会会计专家 (以下简称 ACAE) 对欺诈发生的影响感兴趣。如果存在一些不可观察且在公司层面不变的因素,比如文化,我们可以考虑在回归中加入公司固定效应。具体地,我们使用以下流程和参数模拟不同的情况下 ACAE 对欺诈的影响:

  • (B1) 创建一个包含 5000 家公司的面板数据集,每个公司有 10 年的数据,总共有 50000 个观察值;
  • (B2) 将 40% 的公司设定为 always takers (AT,一直拥有 ACAE 的公司),即 P(ACAE|AT)=1
  • (B3) 将 20% 的公司设定为 sometimes takers (ST,有时拥有 ACAE 的公司),改变并保留样本中随机年份的财务专家,即 P(ACAE|ST)=0.5
  • (B4) 将其余公司设置为 never takers (NT),即 P(ACAE|NT)=0
  • (B5) 对于 always takers 而言,欺诈率为 2.5%,即 P(FRAUD|AT)=2.5%
  • (B6) 有财务专家的情况下,sometimes takers 的欺诈率为 5.0%,即 P(FRAUD|STACAE)=5.0%
  • (B7) 对于没有财务专家的公司,欺诈率为 7.5%,即 P(FRAUD|ACAE=0)=7.5%

给定这些参数,always takers 的欺诈率为 2.5%,有 ACAE 的 sometimes takers 的欺诈率为5%,所有公司类型中没有 ACAE 的欺诈率为7.5%。在 Table 7 的 Panel A 中,我们给出了该模拟的描述性统计数据,并在 Table 7 的 Panel B 中给出了以下两种模型的估计值:

可以看出,Panel B 中列 (1) 的估计值为 -4.3%,反映了 Panel A 中 ACAE 组之间的平均值差异。在列 (2) 中控制公司固定效应之后,这种影响下降到 -1.7%。之所以会出现这种情况,是因为 ACAE 在公司内部的变化只会发生在 sometimes takers 中。类似地,如果变量的潜在构造是稳定的,但测量是有误差的,此时组内变动并不能反映变量潜在的真实变动,更可能反映测量误差的变动。例如,不同区域宗教信仰水平对诈骗的影响。其中用于捕捉宗教性的变量是从年度调查中得出的,反映了美国不同州的人受宗教信仰影响的程度。直觉表明,宗教信仰是相当 “粘性” 的,但调查误差可能会显示一个州内宗教信仰的逐年变化。然而,这种变化在很大程度上反映了噪音,而不是潜在宗教信仰的实际变化。因此,州固定效应 (或公司固定效应) 分析无法可靠地估计宗教信仰水平对诈骗的影响。

4.3.2 固定效应放大反向因果

假设公司倾向于在欺诈事件发生后增加 ACAE (可能是为了解决公司治理薄弱的问题)。为了反映这一情况,我们规定没有经历欺诈事件的 ACAE 的公司,在欺诈事件发生后 50% 的时间内增加 (并保留) ACAE。我们重新对模型 [5a] 和 [5b] 进行估计,结果如 Table 7 的 Panel C 所示。

列 (1) 没有控制公司固定效应,ACAE 对欺诈的影响与 Panel B 中的结果类似,但是 Panel C 中的估计值比 Panel B 更接近 sometimes takers 的真实影响 (Panel B 中的列 (2),系数为 -1.71),因为新参数增加了 sometimes takers 的数量。列 (2) 加入公司固定效应后,ACAE 与欺诈之间仍存在负相关关系,但是其影响远大于 sometimes takers 的真实影响。之所以如此,主要是由于之前发生欺诈才增加 ACAE 的公司,在欺诈期间没有 ACAE,而在转换后欺诈很少发生。因此,负系数表示欺诈事件触发 ACAE 的反向因果关系,这说明固定效应可以放大变量之间的内生关系。

4.4 控制交互变量

会计研究中经常使用交乘项 X×I,来研究变量 I 对 X 和 Y 之间关系的调节作用。如果 X 与 Z 相关,那么交乘项 X×I 也可能与交乘项 Z×I 相关。因此,如果 Z×I 决定 Y,那么不加入 Z×I 作为控制变量可能产生遗漏变量偏误问题。为了说明这个问题,我们从 Compustat 和 Audit Analytics 数据库中提取 2005-2019 年的财务数据进行模拟分析。具体地,我们构造了一个由 ln(Assets) 确定的 Y (Outcome),并且二者关系受到某个随机事件 (50% 的样本包含该事件) 的影响,详见以下模型:

其中,εit 是服从均值为 0,标准差为 0.50 的正态分布。为了说明交互项设定中的遗漏变量偏误,我们选择了另外两个与 ln(Assets) 有一定关系的变量,即资产回报率 (ROA) 和内部控制缺陷 (Weak)。Table 8 中的 Panel A 是变量的描述性统计,Panel B 是相关系数矩阵。可以看出,ROAWeakln(Assets) 存在相关性,ln(Assets)×Event 与每个交互项相关。因此,如果模型不包含其他交互项,则可能会产生遗漏变量偏误问题。例如,我们可以使用以下回归模型来测试 Event 是否会调节 ROAOutcome 之间的关系:

Panel C 的列 (1) 是式 [7] 的估计结果,列 (2) 与之类似,只不过改为 WeakEvent 交互。虽然 ROAWeak 对构建 Outcome 没有主要或交互影响 (式 [6]),但当我们从回归中排除 ln(Assets)×Event 时,依然可以观察到每个交互变量和非交互变量的显著性。

5. 结论和建议

最后,我们为未来的研究提供了一些建议和实践经验:

  • 使用因果图来识别因果机制:描述因果机制和因果效应的方向有助于识别 “好” 和 “坏” 控制,我们强烈鼓励研究人员在设计实证测试时使用这些工具;
  • 考虑变量的生产时间:“好” 控制变量可以捕获在处理时预先确定的结构 (Angrist 和 Pischke,2015)。如果处理后测量变量,则可能是 X 或 Y 的结果。虽然在 X 或 Y 之后测量的所有变量不一定都是 “坏” 控制变量,但其是识别 “坏” 控制变量的良好起点;
  • 根据加入的控制变量来解释模型:研究人员应该考虑在改变 X 和 Y 时保持 Z 常量的可行性。如果这看起来不可行,那么它表明 Z 很可能是一个 “坏” 控制变量。此外,如果研究人员想要调查 “完全” 因果效应,中介因素通常是 “坏” 控制变量,但如果研究人员关注 “直接效应”,则中介因素可能是合适的。在这种情况下,研究人员应根据加入的中介因素讨论估计值。另一方面,当控制 “结果的结果” 或对撞因素时,会产生包含复杂信息的估计值;
  • 考虑控制变量中的测量误差:虽然对于测量误差并不能简单的固定,但我们仍建议研究人员 (1) 认识测量误差的潜在影响,(2) 追求对重要变量更好地测量,(3) 识别测量误差不那么普遍的设定,(4) 在可行的情况下,控制测量误差;
  • 交乘项:需要考虑交乘项作为控制变量的潜在需要,因为未交乘的控制变量可能无法完全解决遗漏变量偏误问题;
  • 提供有和没有特定控制变量的模型:控制变量包括 “好” 和 “坏” 控制的两个方面。在具体设定中,我们建议报告有控制和无控制两种结果,并解释为什么这些变量符合良好或不良控制变量的标准 (Oster,2019)。Stock 和 Watson (2011) 提倡使用专家判断、经济理论和数据收集知识相结合的方法来选择核心或基础回归集合。当控制变量改变推论时,研究人员应该依靠自己的专业知识和理论来理解这种差异;
  • 尽可能利用随机变量:随机变量不需要控制变量来进行无偏估计。

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 控制变量, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh