会计研究中准实验方法的发展与问题

发布时间:2022-09-20 阅读 959

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:董涵敏 (华中科技大学)
邮箱hanmindong@hust.edu.cn

编者按:本文主要摘译自下文,特此致谢!
Source:Armstrong C, Kepler J D, Samuels D, et al. Causality redux: The evolution of empirical methods in accounting research and the growth of quasi-experiments[J]. Journal of Accounting and Economics, 2022: 101521. -PDF-


目录


1. 引言

实证论文是否必须进行因果推断?因果推断有哪些具体的方法,又有哪些注意事项?会计研究中如何权衡“新理论”与“新选题”?虽然这些问题的答案不是唯一的,但不妨碍我们去思考解决这些问题的可能方法。

通过收集和分析 2005-2019 年发表在会计学顶刊上的权威论文,本文发现会计研究人员对于因果推断和准实验的兴趣愈加浓厚。尽管准实验可以帮助我们进行因果推断,但我们也不能过度“迷信”,还应综合考虑研究问题背后的理论和制度知识,并使用多个研究设计和实证分析进行充分论证。

正如柯南所说,只有排除了所有不可能的,剩下的才会是真相。

2. 实证方法的演变

2.1 实证论文调查

识别实证论文

  • 来源:收集 2005-2019 年期间在 JAE、JAR 和 TAR 上发表的 1417 个实证研究样本;
  • 自动:识别关键词 (standard errors,t-statistic,p-value);
  • 手动:阅读标题、摘要和关键词。

识别准实验论文

  • 界定:通过外生性冲击模拟随机化实验,如倍分法、工具变量法和断点回归法;
  • 自动:识别至少包含两个关键词 (exogenous,natural experiment,quasi,shock);
  • 手动:阅读标题、摘要和关键词。

调查结果

  • 研究数量:显著上升;
  • 研究方法:以倍分法为主,其次是工具变量法和断点回归法;
  • 研究背景:监管政策、行业或国家层面的经济冲击、法院案件、指数构成、经纪公司的倒闭和自然现象;
  • 研究质量:相比所有实证论文,准实验论文的高被引率较低。

2.2 核心观点

随着准实验的应用愈加广泛,研究人员更容易得到可信的结论,这反过来又增加了论文创新的难度。从贝叶斯学习框架的角度来看,如果想推翻已被证实的理论,需要更具有说服力的证据来改变人们的想法。

下图展示了理论创新和边际贡献所需的证据标准之间的权衡。其中左上象限为新理论+初步证据,右下象限为成熟理论+新证据 (如因果推断) ,大多数使用准实验方法的论文位于右下象限。论文正从左上象限向右下象限倾斜,其边际贡献在于研究背景和研究设计的创新,将推论从“相关”推进至“因果”,而非基础概念和理论的创新。

3. 准实验和因果推断

3.1 线性回归和遗漏变量偏误

在我们调查的论文中,大多数论文采用了面板数据进行线性回归,其一般式如下:

然而,当回归遗漏了与 xi,t 和  yi,t 相关变量时,可能导致内生性问题。会计文献中通常采用三种常见的方法来处理遗漏变量的偏差:

  • 从理论层面寻求替代性解释:例如如使用“交错董事会”来衡量“公司治理”,但难以把所有的替代性的解释全部都列举出来;
  • 固定效应模型:考虑使用特定维度的固定效应吸收可能的遗漏变量,但这也可能会加剧遗漏变量的偏误 (见 4.3 部分);
  • 横截面交互作用:通过理论来确定边际效益或子样本后,估计分组回归的系数差异,或将分组变量进行交互。

这一部分有两个关键要点:一是数据生成过程是未知的,因此没有一种方法是万能的;二是因果推断隐含着理论假设,应当从多种方法和不同假设中寻求一致的结果。

3.2 缓解遗漏变量偏误的方法:准实验

准实验通过将样本随机分配为实验组和对照组,并观察二者之间平均结果的差异来获得干预的因果效应。然而,在实践中并不存在真正的随机分配。“准实验”的准就体现在找到一个近似随机分配的理想实验,但这种分配可能不是完全随机的。一方面,我们需要观察分配的随机性;另一方面,我们也要尝试减少分配的非随机性。

基于此,倍分法 (difference-in-differences,DID) 提供了一种基于面板 OLS 回归估计的研究范式来近似随机分配,其主要类型如下:

3.2.1 经典 DiD

其中,当 i 受干预时 xi 被赋值为1;当干预发生后 Dt 被赋值为1。其系数的含义如下表所示:

xi=0 对照组 xi=1 实验组 差异
Dt=0 干预前 α1 α1+β1 β1
Dt=1 干预后 α1+α2 α1+α2+β1+β2 β1+β2

需要注意的是,假设关键是所有的观测值都在同一时间点接受干预。观察重点不是实验组和对照组之间的差异 (即 β1),而是干预前后一差异如何变化 (即 β2)。遗漏变量偏误不是与 xi 相关的遗漏变量,因为 β1 可以捕捉当 Dt=0 时实验组和对照组的恒定差异,而是与 xi 相关且随着Dt 变化的遗漏变量。

3.2.2 广义 DID 和渐进 DID

广义 DID:包括企业和年度固定效应,以控制实验组和对照组的任意固定差异和共同时间趋势。

渐进 DID:允许每个样本在不同的时间点接受干预。

本部分有如下两个关键要点:一是经典 DID 是横截面交互模型中的一种,二者估计方法和理论假设相似,也均受到遗漏变量偏误的影响。二是若分组变量取决于时间而非公司特征,随机分配的假设更可能成立。

3.3 因果推理理论的重要性

理论对实证分析的重要性如下:

  • 为预测和解释相关性提供基础:在缺乏理论的情况下,相关性只具有统计学意义,而非经济学含义;
  • 揭示某一变量的重要性:例如,公司治理变量,在研究分析师报道如何影响公司流动性时十分重要,而在研究恐怖袭击前后分析师报道的变化时相对没有那么重要;
  • 揭示内生特征:例如,强制性披露和自愿性披露的决定因素在理论上相似且互相影响,因此不建议使用因果关系来解释二者的回归结果;
  • 增加推论的可信度:如下图所示,理论不仅有助于因果推断,还可以帮助研究人员解释多种可能,并排除其他假设。

在真正随机分配下,理论不是估计因果的必要条件。鉴于随机分配的重要性,应当鼓励会计研究中实验室和田野实验。但是,我们仍需要运用理论区分因果关系和相关关系:

  • 因果推断的测量方法和研究设计均隐含了理论假设;
  • 在会计研究中很少真正地随机分配实验组和对照组,因此近似随机分配也依赖于理论;
  • 理论越精确,由此产生的因果推断就越可信。

3.4 理论对于普适性的重要性

普适性是指将单一研究设计中得到的理论和推论推广至样本之外,其关键是理论基础。如果理论缺乏说服力,那么推论就必然具有局限性。研究背景即使再重要 (如,大萧条、金融危机和会计欺诈 ),研究结论也难以被推广。

对普适性的关注取决于研究人员的目标,而对特定研究设计的推广依赖于研究人员的能力。大量的实证论文是基于法规背景的因果推断。尽管监管的效果取决于当前的制度环境,由此得到的因果推断难以具有普适性的,但这不妨碍从中获得政策启示。

我们提出三个可以减轻对普适性担忧的方法:

  • 承认研究的不足,例如针对特定研究问题的结论难以推广,但强调普适性不是研究的关键问题;
  • 在同一个研究问题的背景下考虑多个研究设计;
  • 研究贡献体现在将先前研究中的推论推广到其他研究设计中。

4. 会计文献中准实验的实施问题

4.1 外生的与近似随机的

“外生”冲击是指由系统以外的因素引发的冲击。但这只说明了冲击的起源,无法判断受冲击的对象是否是随机分配的。例如,加州的董事会性别多样性法规只适用于在法规前董事会没有女性的公司。但如果性别多样性给公司带来了好处,那么公司可能早已内生地拥有女性董事。因此,这条法规在分配实验组和对照组时存在选择偏差。

非随机分配导致 DID 的估计结果不是平均处置效应 (ATE),而是实验组的平均处置效应与选择偏差。因此,我们鼓励文献将推论限制在监管本身 (如,加州董事会性别多样性规定的因果效应),而不要推广至因监管产生的行为变化 (如,董事会性别多样性的因果效应)。

4.2 平行趋势检验

DID 估计的关键性假设是平行趋势假设。该假设要求在没有干预的情况下,实验组与对照组的结果趋势相似。这一假设背后的直觉是,如果干预前两组的变化趋势不一致,那么未观察到的干预后趋势也不大可能一致,所以我们就无法在干预后通过对照组的变化,来推测实验组如果未接受干预的可能变化。如下图所示,

  • Panel A:支持平行趋势假设,实验组和对照组的差异在干预前是恒定的;
  • Panel B:难以支持平行趋势假设,两组在干预前的变化趋势不一致。

另一种常见的方法是观察实验组和对照组之间差异的变化。在经典的 DID 回归设计中,我们替换指标 Dt 为一系列代表时间虚拟变量的 Yeart,并选择一个年度作为基期将其剔除。

其中,β1 衡量基准期内实验组和对照组的结果差异。将上述检验推广至渐近 DID 回归设计中时,需要进行如下操作:

  • 创建并包含基于干预时间的时间周期指标,如 t<3t=2t<1t=0t=1t>2
  • 指定一个基准周期的选择,以及是否和如何在干预前后合集周期,如 t<3 和 t>2

下图展示的是一个选择 2000 年为干预时间,1999 年为基期的平行趋势检验,其中系数 θ 代表特定年份实验组和对照组之间的差异超过 1999 年差异的部分。

平行趋势检验需要评估:干预前实验组和对照组是否存在显著差异;干预后处置效应开始显著的时间,即是否存在滞后或预期效应;处置效应是否具有持续性。

同时,这些检验方法也不是万能的:检验依赖于一个本质上无法验证的假设,即人们可以从前期观察到的关系中推断后期未观察的反事实关系;不同读者对同一图形的理解不同,因此对平行趋势图的判断较为主观;总之,平行趋势检验可以提供有用的信息,但这也不足以进行因果推断。

4.3 常见的固定效应设计

许多文献在 DID 设计中包含高维固定效应。尽管固定效应可以缓解部分遗漏变量偏误,但它也不是万能的:

  • 加剧遗漏变量偏误:固定效应的隐含假设是相关遗漏变量的数据生成过程不存在显著的组内变化,因此它只能缓解组间差异,而不能消除组内差异。如果遗漏的相关变量存在显著的组内差异,那么组内分析可能比组间分析的偏误更高;
  • 增加结果的敏感性:当高维固定效应吸收了大量自变量中较高水平的变异时,用于估计系数的剩余变异来自于少数的观测值。因此,回归中的观测数量可能具有误导性。同时,如果吸收率达到 100% ,自变量将会接近于固定效应的线性组合,导致回归因多重共线性而无法估计。此时,回归结果是敏感的,系数估计可能在因变量或样本组成的微小变动而大幅变化。

为解决以上问题,我们鼓励在使用高维固定效应时:考虑不同固定效应的结果,报告方差膨胀因子,报告变量的标准差和回归的 R2。在极端情况下,系数可能在不同的固定效应模型中翻转符号,我们建议:关注可能存在的偏误,在不同的预测和假设下关注符号翻转和其他敏感变化。

5. 非实验能够促进因果推断吗

5.1 当准实验不实际时,非实验证据的作用

在会计文献中,有大量实际且有趣的因果问题,并不是通过准实验得到的。例如,Healy (1985) 研究了基于收益的奖金合同是否会激励经理人操纵收益。

  • 内生性问题:董事会会预期经理人对基于奖金激励计划的反应,因此计划中的决策、条款和会计反应都是内生且共同决定的。然而,这一问题难以使用准实验进行估计。
  • 仍具有研究意义:文章提出来的理论和实证结果仍影响着后续薪酬激励文献的发展。

又如,一篇避税的文献,Asay 等 (2021) 研究了特定的避税策略如何影响消费者行为:

  • 准实验的困难:在实践中,难以引导公司进行避税,即使可以随机告诉消费者公司的避税行为,这也不能反映消费者在现实世界中如何了解企业的避税行为;
  • 研究方法:作为实验证据的替代,研究通过收集公司采取激进税收策略时的媒体报道、产品销售和消费者回应等不同主体的内生选择,发现样本中的普通消费者在作出购买决定时并不关心避税策略;
  • 解决思路:通过多个非实验方法和三角推断来进行因果分析,得到了可信的因果推论。

5.2 结合准实验和非准实验证据来确定因果机制

下图展示了因果推理语境中的“估计”和“识别”:

  • 图中连结了 X 和 Y 的因果图,且 X 是通过 A 和 B 影响到了 Y;
  • 考虑 X 的随机变化,可以通过实证估计 X 到 Y 的因果效应 (即,是什么),而不需要确定 A 和 B 的潜在机制 (即,为什么);
  • 当测试因果机制时,需要估计 X 对 A 和 B 的影响,A 和 B 对 Y 的影响,并排除 X 对 Y 没有直接的影响,即证明在控制了 A 和 B 之后 X 对 Y 不存在因果效应。

在因果链的每个环节都没有随机变化的情况下,可以将非实验方法和准实验方法相结合,进行三角互证,以估计因果效应,同时提供与特定机制一致的证据。

  • 将认为 X 不影响 A 的情况下估计 X 对 Y 的因果效应,与 X 影响 A 的情况下估计 X 对 Y 的因果效应进行比较;
  • 相当于一个横截面测试,或是三重差分设计 (DIDID) ,并允许所谓的“异质性处置效应“——即 X 对 Y 的因果效应随着观察结果的特征而变化;
  • 即使非实验或是具有内生性问题的数据,也可以与令人信服的理论和准实验证据相结合,提供更有说服力和更巧妙的推论。

5.3 当准实验证据与非准实验证据发生冲突时

准实验和非准实验的结合及其一致性可以提供可信的推论。当二者之间的证据发生冲突时,应该如何解决?

  • 孤立地考虑任何一种方法都是不完整且具有误导性,因此不要总是认为准实验得到的结论比非实验得到的结论更加可靠;
  • 结合二者的证据,并考虑不同研究设计下的因果机制和经济含义。

6. 结论

通过回顾会计文献,我们发现可靠的因果推断需要:

  • 扎实的经济理论;
  • 合适的制度环境和假设方法;
  • 丰富的稳健性,以便利用理论假设对推论进行三角互证。

当难以找到准实验时,非实验方法也可以提供谨慎的证据。我们提醒:

  • 不要教条地应用各种方法;
  • 保证结果的可复制性;
  • 报告在不同研究设计、模型和方法下的结果;
  • 因果推断是重要但非必须的,没有解决因果问题的文献也可以做出重要贡献。

7. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 因果推断, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh