Stata:合成控制法的预测区间-scpi

发布时间:2022-11-17 阅读 413

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:高净鹤 (东北财经大学)
邮箱jh.gaook@gmail.com

编者按:本文主要摘译自下文,特此致谢!
Source:Cattaneo M D, Feng Y, Titiunik R. Prediction intervals for synthetic control methods[J]. Journal of the American Statistical Association, 2021, 116(536): 1865-1880. -PDF- -Supplemental Material- -R-


目录


1. 简介

合成控制法 (Synthetic Control Methods,SCM) 是一种使用未受干预个体 (控制组) 的加权平均值,来近似在没有干预的情况下受干预个体 (处理组) 的反事实替身,以此来估计处理效应。合成控制法的实现通常涉及两个主要的估计步骤:

  • 首先,通过回归方法 (通常是有约束的),仅使用干预前数据将 treated unit(s) 与 control units 匹配;
  • 其次,通过将干预前的匹配权重与干预后的 control units 相结合,获得 treated unit(s) 的反事实结果的预测。

因此,合成控制法提供了干预政策实施后,treated unit(s) (因果) 处理效应的预测或点估计。本文拓展了合成控制法的不确定性量化,提出了 SC 框架下的条件预测区间:将潜在的结果变量作为随机变量,并采用有限样本概率集中的方法,为 treated unit(s) 在干预后的反事实结果制定预测区间,从而提供了一种评估统计不确定性的 (有条件的) 替代推断方法。

2. 理论背景

本文提出的方法是通过 (有条件的) 预测区间来量化不确定性,因为在 SC 框架中,处理效应估计量基于干预前数据构建的 SC 估计权重,是从样本外预测问题中出现的随机变量。该方法推断出的不是通常意义上的置信区间 (即为感兴趣的非随机参数在参数空间中给出一个区域),而是一个描述在随机变量的支持下可能观察到的新实现的区域的区间。

SC 预测的统计不确定性由两个不同的随机性来源控制:一个是样本内不确定性——由于干预前期 SC 权重的构造 (可能被错误指定);另一个是样本外不确定性——由于干预后对处理效应分析时不可观测的随机误差。

因此,本文建议的预测区间是在考虑两个随机性来源的情况下构建的:

  • 对于不确定性的第一个来源,提出了一种基于模拟的方法,该方法通过非渐近概率集中来证明其合理性,从而享有概率保证。该方法考虑了 SC 权重的具体构造。
  • 对于第二个不确定性来源,即由于干预后的不可观测误差而导致的样本外预测,讨论了几种基于非参数概率近似和参数概率近似的方法作为原则灵敏度分析的框架。第二个不确定性源较难以非参数方式处理,因此应谨慎考虑其对总体预测区间的影响,文中的方法是采用不可知性敏感性分析。

2.1 设定

考虑具有单个 treated unit 和多个 control units 的标准合成控制框架,允许平稳和非平稳数据。数据可能只包括感兴趣的结果变量,或者包括感兴趣的结果变量加上其他变量。研究观测的是 T0+T1 时期内 (t=1,2,,T0,T0+1,,T0+T1N+1 个个体 (i=1,2,,N,N+1)。

在前 T0 时期内,所有的个体都没有接受干预。从 T0+1 期开始,个体 1 ( i=1 ) 接受干预而其他个体仍然保持不接受干预,此后个体是否接受干预状态保持不变,直到观测期结束。

每一个个体 i 在时期 t 都有两种潜在的结果:接受干预的结果 Yit(1) 和未接受干预的结果 Yit(0)。即,设定包含两个隐形假设:无溢出 (个体 i 的潜在结果只取决于其 i 是否接受干预) 和无预期 (t 时期的潜在结果只取决于同时期是否接受干预)。我们关注的处理效应是接受干预的个体的结果与在不接受干预的情况下该个体应该出现的结果之间的差异,即:

根据所考虑的框架,τt 可以是随机或非随机的。在本文中,将 τt 视为随机变量。对于每个个体,我们只能观测到与实际干预状态相对应的潜在结果,定义 Yit 为实际观测到的结果:

这意味着在 τt 中,treated unit 的潜在结果 Y1t(0) 对于所有的 t>T0 是无法观测到的。合成控制法的思想是将控制组干预后观察结果进行适当组合,以接近处理组的反事实干预后结果:Y1t(0)fort>T0

在 SC 框架中,选择一组权重 w=(ω2,ω3,,ωN+1) 使给定的损失函数在约束条件下最小化。给定一组估计权重 w^,在 t>T0 时,处理组的反事实预测结果为 Y^1t(0)=i=2N+1w^iYit(0)。加权平均 Y^1t(0) 为被处理个体的合成控制,因为它代表了如何将未干预的个体组合起来,为干预后的个体提供最佳的反事实。

当数据只包含与感兴趣结果有关的信息时,选择 w 使未干预个体结果的加权平均值与干预前一段时间内 treated unit 的结果轨迹很接近。也就是说,权重 w 的选择满足:

其中,符号  的含义因所考虑的具体框架而异。一个主要例子的约束权重为非负且和为 1,并通过约束最小二乘估计 w

其中 r 表示截距,W 和 R 表示相应的约束集 (或可行性集)。

然而,SC 方法的这种只考虑结果的方式,不能保证所得到的合成控制个体将在除 (干预前) 结果之外的任何特征上与 treated unit 相似。在实证中往往还会获得其他特征,因此我们还希望确保合成控制在这些其他特征方面与 treated unit 接近。

SC 框架可以通过为这些额外的特性包含额外的方程来处理这种情况,并将综合损失最小化。在这种情况下,让 l=1,2,,M 定义为将被匹配产生权重的变量下标,上述最小化问题可推广为:

其中 r^=(r^1,,r^M) 和 {vt,l}1tT0,1lM 是正常数,反映了不同方程和周期的相对重要性。

2.2 一般框架

现在讨论一个包含上述两个特殊例子的一般框架,并允许以统一的方式进行协变量调整和非平稳数据。

考虑为 treated unit 的 M 个特征同时构造的合成控制权重,用 Al=(a1,l,,aT0,l)RT0 表示,其中 l=1,2,,M。对于每一个特征 l,都存在 J+K 个变量,可以用来预测或匹配 T0 维向量 Al。这些 J+K 个变量被分为两组,分别为 Bl=(B1,l,B2,l,BJ,l)RT0×J 和 Cl=(C1,l,C2,l,CK,l)RT0×K

更准确的说,对于每一个 jBj,l=(bj1,l,,bjT0,l) 对应于在干预前 T0 期间内观测到的第 j 个个体的第 l 个特征;对于每一个 kCk,l=(ck1,l,,ckT0,l) 是另一个控制变量向量,也可能用于预测同一干预前时间跨度内的 Al 。为了方便,设 d=J+KM

合成控制法的目标是在 M 个特征上搜寻一个公共权重向量 wWRJ 和一个系数向量 rRRKM,使得 Bl 和 Cl 的线性组合在所有 1lM 的情况下尽可能匹配 Al,设目标通常通过以下优化问题来实现:

其中,

可行性集 W 和 R 捕捉了施加的限制。该框架包含了文献中多种先前的合成控制的形式,它们的不同之处在于是否包含额外的协变量,是否假设数据是平稳的,以及使用的约束集 W 和 R 的特定选择,以及其他可能性。

为了进一步理解本文的推断方法,定义相对于一个 σ 域的伪真值 w0 和 r0

因此,

其中,U=(u1,1,,uT0,1,,u1,M,,uT0,M)RT0M 是相对于 σ 域的伪真值残差。也就是说,w0 和 r0 是与 H 条件下 (可能受约束的) 最佳线性预测系数 w^ 和 r^ 相关的均方误差估计。

给定估计权重w^ 和 系数 r^, treated unit 干预后反事实结果为:

其中,xTRN 是在时间 T 上观察到的 control units 的预测因子向量,gTRKM 是在时间 T 上观测到的另一组用户指定的预测因子。包含在xT 和 gT 中的变量不需要与 B 和 C 中的变量相同,但必须是 σ 域 H 上的一部分。分解 treated unit 的潜在结果:

其中 eT 由结构定义。本文假设 w0 和 r0 可能是 w^ 和 r^ 分别集中在概率周围的随机元素,所以称它们为伪真值。处理组的估计处理效应与目标群体的距离为:

在合成控制框架内,将感兴趣的变量 τT 视为一个随机变量,不称其为“参数”,称 τ^T 为 τT 的预测,而不是其“估计量”,并着重建立预测区间而不是置信区间,以此表征 τ^T 的不确定性。

2.3 预测区间

其中,eT 是由于错误设定以及干预后阶段 (T>T0) 中出现的任何额外噪声造成的样本外误差,pT(β^β0) 是来自合成控制权重估计的样本内误差。本文的目标是分别找到这两项的概率边界,从而给出不确定性量化。

本文使用以下引理来构造有效的条件预测区间。假设存在 M1, L,M1,U,M2, L 和 M2,U,可能取决于 α1,α2,π1,π2(0,1) 和条件 σ 域 H,使得满足以下条件:

那么,

该引理提供了一种简单的方法来构造具有 (α,π) 有效的 H 条件预测区间,