离群值稳健IV估计量及其在因果推断中应用-robustAR-R语言
2024-12-07
张祖冲
1009

连享会   主页 || 推文 || 知乎 || B 站 || 在线课堂

New! 搜推文,找资料,用 lianxh 命令:
安装: ssc install lianxh, replace
使用: lianxh 合成控制
       lianxh DID + 多期, w


作者:张祖冲 (江苏大学)
邮箱:zzchong1228@163.com

编者按:本文主要摘译自下文,特此致谢!
Source:Klooster, J., & Zhelonkin, M. (2023). Outlier robust inference in the instrumental variable model with applications to causal effects (replication data) (Version 1). ZBW - Leibniz Informationszentrum Wirtschaft. -Link- -Google-

Title:离群值稳健IV估计量及其在因果推断中应用-robustAR
Keywords:工具变量,内生性,弱工具变量,Anderson-Rubin (AR) 检验,R语言,robustAR

1. 稳健 AR 简介

在经济学和统计学中,工具变量模型是一种常用的方法,旨在解决解释变量可能存在的内生性问题。Anderson-Rubin (AR) 检验提供了一种可靠的推断手段,用于处理工具变量较弱的情况。

然而,尽管 AR 检验在应对弱工具变量时非常有效,但它在面对异常值时缺乏稳健性。新的稳健 AR 检验方法通过构建基于 M 估计量的稳健检验统计量来增强这一稳健性,该统计量在零假设下渐近服从卡方分布。具体原理和公式如下:

1.1 IV 模型与弱工具变量

模型设定

y1=x1γ1+x2π+ϵ1y_{1}=\mathbf{x}_{1}^{\top} \gamma_{1}+\mathbf{x}_{2}^{\top} \pi+\epsilon_{1}

y2=βy1+x1γ2+ϵ2y_{2}=\beta y_{1}+\mathbf{x}_{1}^{\top} \gamma_{2}+\epsilon_{2}

其中 y1y_1 是内生变量,x2x_2 是工具变量,x1x_1 是控制变量,误差项 (ϵ1,ϵ2)(\epsilon_1,\epsilon_2) 均值为零且与工具变量和控制变量不相关。

假设检验

关注检验假设 H0:β=β0H_0:\beta=\beta_0H1:ββ0H_1:\beta\ne\beta_0,通常解释为 y1y_1y2y_2 的因果效应。当工具变量较弱时,传统的估计和推断方法可能失效。

AR 检验原理

在零假设下,工具变量 x2x_2y2β0y1y_2 - \beta_0 y_1 没有解释作用。我们通过构建 AR 统计量来检验这一假设:

AR(β0)=(Y2β0Y1)PX~2(Y2β0Y1)/p2σ^22(β0)AR(\beta_{0}) = \frac{(\mathbf{Y}_{2} - \beta_{0} \mathbf{Y}_{1})^{\top} \mathbf{P}_{\tilde{\mathbf{X}}_{2}} (\mathbf{Y}_{2} - \beta_{0} \mathbf{Y}_{1}) / p_{2}}{\hat{\sigma}_{2}^{2}(\beta_{0})}

其中,

σ^22(β0)=(Y2β0Y1)MX(Y2β0Y1)np1p2\hat{\sigma}_{2}^{2}(\beta_{0}) = \frac{(\mathbf{Y}_{2} - \beta_{0} \mathbf{Y}_{1})^{\top} \mathbf{M}_{\mathbf{X}} (\mathbf{Y}_{2} - \beta_{0} \mathbf{Y}_{1})}{n - p_{1} - p_{2}}

在这里,Y2\mathbf{Y}_2Y1\mathbf{Y}_1 是相应变量的 n×1n \times 1 向量,X1\mathbf{X}_1X2\mathbf{X}_2 是对应变量的矩阵。MX=In×nPX\mathbf{M}_X = \mathbf{I}_{n \times n} - \mathbf{P}_X,其中 PX=X(XX)1X\mathbf{P}_X = \mathbf{X}(\mathbf{X}^{\top}\mathbf{X})^{-1}\mathbf{X}^{\top},而 X~2=MX1X2\tilde{\mathbf{X}}_{2} = \mathbf{M}_{\mathbf{X}_{1}} \mathbf{X}_{2}。在一般正则条件下,当 p2AR(β0)p_2 AR(\beta_0) 超过 χ2(p2)\chi^{2}(p_2) 分布的 (1α)(1-\alpha) 分位数时,我们拒绝零假设。通过逆检验可以得到置信集。

1.2 稳健 AR 检验

影响函数 (IF) 分析:通过分析 AR 统计量的影响函数

IF(w;AR(β0,),Fθ0)=1p2y2y1β0x1γ2σ2([M(21){M(11)}1x1+x2]×{M(22.1)}1[M(21){M(11)}1x1+x2])12,\begin{aligned} \mathbf{IF}\left(\mathbf{w};\sqrt{AR(\beta_{0},\cdot)},F_{\theta_{0}}\right)=& {\frac{1}{\sqrt{p_{2}}}}\left|{\frac{y_{2}-y_{1}\beta_{0}-\mathbf{x}_{1}^{\top}\gamma_{2}}{\sigma_{2}}}\right|\left(\left[-\mathbf{M}_{(21)}\left\{\mathbf{M}_{(11)}\right\}^{-1}\mathbf{x}_{1}+\mathbf{x}_{2}\right]^{\top}\right. \\ &\left.\times\left\{\mathbf{M}_{(22.1)}\right\}^{-1}\left[-\mathbf{M}_{(21)}\left\{\mathbf{M}_{(11)}\right\}^{-1}\mathbf{x}_{1}+\mathbf{x}_{2}\right]\right)^{\frac12}, \end{aligned}

其中,M:=(x1x1x1x2x2x1x2x2)dFθ0\mathbf{M}:=\int\left(\begin{array}{cc}\mathbf{x}_1\mathbf{x}_1^\top&\mathbf{x}_1\mathbf{x}_2^\top\\\mathbf{x}_2\mathbf{x}_1^\top&\mathbf{x}_2\mathbf{x}_2^\top\end{array}\right)dF\boldsymbol{\theta}_0,发现其在因变量和协变量上无界,表明AR统计量不稳健,一个异常值可能导致其失效。

M 估计量:基于 M 估计量构建稳健 AR 检验统计量,M 估计量 θ^:=θ^(β0)={γ^2(β0),δ^(β0)}\hat{\theta}:=\hat{\theta}(\beta_{0})=\left\{\hat{\gamma}_{2}(\beta_{0})^{\top},\hat{\delta}(\beta_{0})^{\top}\right\}^{\top} 是方程 1ni=1nΨ(wi,θ^)=0\frac1n\sum_{i=1}^n\Psi(w_i,\hat{\theta})=0 的解,其中 Ψ\Psi 是得分函数,在经典 AR 统计量中,使用的得分函数为:

Ψ(wi,θ^)=s(wi,θ^):={y2iy1iβ0x1iγ^2(β0)x2iδ^(β0)}(x1ix2i)\Psi\left(\mathbf{w}_{i},\hat{\theta}\right)=\mathbf{s}\left(\mathbf{w}_{i},\hat{\theta}\right):=\begin{Bmatrix}y_{2i}-y_{1i}\beta_{0}-\mathbf{x}_{1i}^{\top}\hat{\boldsymbol{\gamma}}_{2}(\beta_{0})-\mathbf{x}_{2i}^{\top}\hat{\boldsymbol{\delta}}(\beta_{0})\end{Bmatrix}\left(\begin{array}{c}\mathbf{x}_{1i}\\\mathbf{x}_{2i}\end{array}\right)

在一定条件下,M 估计量具有一致性和渐近正态性,其影响函数和渐近协方差矩阵有特定公式:

IF(w,Ψ,Fθ)=M(Ψ,Fθ)1Ψ(w,θ)\mathrm{IF}(\mathbf{w},\Psi,F_{\theta})=\mathbf{M}(\Psi,F_{\theta})^{-1}\Psi\left(\mathbf{w},\theta\right)

V(Ψ,Fθ)=M(Ψ,Fθ)1Q(Ψ,Fθ)M(Ψ,Fθ)\mathbf{V}(\mathbf{\Psi},F_{\boldsymbol{\theta}})=\mathbf{M}(\mathbf{\Psi},F_{\boldsymbol{\theta}})^{-1}\mathbf{Q}(\mathbf{\Psi},F_{\boldsymbol{\theta}})\mathbf{M}(\mathbf{\Psi},F_{\boldsymbol{\theta}})^{-\top}

其中,M(Ψ,Fθ)=(Ψ/θ)(w,θ)dFθ\mathbf{M}(\Psi,F_{\theta})=-\int(\partial\Psi/\partial\theta)(\mathbf{w},\theta) dF_{\theta}Q(Ψ,Fθ)=Ψ(w,θ)Ψ(w,θ)TdFθ\mathbf{Q}(\Psi,F_{\theta})=\int\Psi(\mathbf{w},\theta)\Psi(\mathbf{w},\theta)^{\mathsf{T}}dF_{\theta}

稳健 AR 统计量:稳健 AR 检验统计量

RAR(β0):=ZnU1ZnRAR(\beta_0):=\mathbf{Z}_n^\top\mathbf{U}^{-1}\mathbf{Z}_n

其中,Zn=1ni=1nΨ(wi,θ^r)(2)\mathbf{Z}_{n}=\frac{1}{n}\sum_{i=1}^{n}\Psi\big(\mathbf{w}_{i},\hat{\theta}_{r}\big)_{(2)}θ^r:=θ^r(β0)\hat{\theta}_{r}:=\hat{\theta}_{r}(\beta_{0}),是 H~0\tilde{H}_{0} 限制的 M 估计量,满足 1ni=1nΨ(wi,θ^r)(1)=0\frac1n\sum_{i=1}^n\Psi(w_i,\hat{\theta}_r)_{(1)}=0(θ^r)(2)=0(\hat{\theta}_r)_{(2)}=0

U:=U(Ψ,Fθ)=M(Ψ,Fθ)(22.1)V(Ψ,Fθ)(22)M(Ψ,Fθ)(22.1)T\mathbf{U}:=\mathbf{U}(\mathbf{\Psi},F_{\mathbf{\theta}})=\mathbf{M}(\mathbf{\Psi},F_{\mathbf{\theta}})_{(22.1)}\mathbf{V}(\mathbf{\Psi},F_{\mathbf{\theta}})_{(22)}\mathbf{M}(\mathbf{\Psi},F_{\mathbf{\theta}})_{(22.1)}^{\mathsf{T}}

以基于 LS 估计量的经典 AR 统计量为例,在特定条件下,可推导出稳健 AR 统计量与经典 AR 统计量的关系。

IF 和渐近分布:稳健AR统计量的影响函数:

IF(w;RAR(β0,),Fθ0)=IF(w;Z(),Fθ0)TU(Ψ,Fθ0)1IF(w;Z(),Fθ0)=IF(w;Ψ,Fθ0)(2)V(Ψ,Fθ0)(22)1IF(w;Ψ,Fθ0)(2)\begin{gathered} IF\left(\mathbf{w};\sqrt{RAR(\beta_{0},\cdot)},F_{\theta_{0}}\right)=\sqrt{IF(\mathbf{w};\mathbf{Z}(\cdot),F_{\theta_{0}})^{\mathsf{T}}\mathbf{U}(\mathbf{\Psi},F_{\theta_{0}})^{-1}IF(\mathbf{w};\mathbf{Z}(\cdot),F_{\theta_{0}})} \\ =\sqrt{IF(\mathbf{w};\Psi,F_{\theta_{0}})_{(2)}^{\top}\mathbf{V}(\Psi,F_{\theta_{0}})_{(22)}^{-1}IF(\mathbf{w};\Psi,F_{\theta_{0}})_{(2)}} \end{gathered}

当构建其 M 估计量的影响函数有界时,稳健 AR 统计量的影响函数也有界。在零假设和一定假设条件下,nRAR(β0)dχ2(p2)nRAR(\beta_0)\overset{d}{\to}\chi^2(p_2),从而可定义稳健 AR 检验,ϕRAR(β0)=1{nRAR(β0)χ1α2(p2)}\phi_{RAR}(\beta_0)=1\{nRAR(\beta_0)\geq\chi_{1-\alpha}^2(p_2)\},并通过检验反转得到置信集。

1.3 应用指导

得分函数选择:建议使用基于 Mallows 类型得分函数的稳健 AR 检验统计量,

Ψ(w,θ)=ω(x1,x2)ρ{y2β0y1x1γ2(β0)x2δ(β0)σ2(β0)}(x1x2)\Psi(\mathbf{w},\theta)=\omega(\mathbf{x}_1,\mathbf{x}_2)\rho\left\{\begin{array}{c}y_2-\beta_0y_1-\mathbf{x}_1^\top\boldsymbol{\gamma}_2(\beta_0)-\mathbf{x}_2^\top\boldsymbol{\delta}(\beta_0)\\\sigma_2(\beta_0)\end{array}\right\}\left(\begin{array}{c}\mathbf{x}_1\\\mathbf{x}_2\end{array}\right)

其中 ω\omega 是权重函数,ρ\rho 是下加权函数,如 Huber 函数 (建议 c=1.345):

ρH(r;c)={r,ifrc,sgn(r)c,ifr>c.\rho_H(r;c)=\left\{\begin{array}{ll}r,&\text{if} |r|\leq c,\\\text{sgn}(r)\cdot c,&\text{if} |r|>c.\end{array}\right.

和 Tukey's biweight 函数 (建议 c=4.685c=4.685):

ρT(r;c):={r(1r2c2)2,forrc,0,forr>c.\rho_T(r;c):=\begin{cases} r\Big(1-\frac{r^2}{c^2}\Big)^2,& \text{for} |r|\leq c,\\ 0,& \text{for} |r|>c.\end{cases}

权重函数可选择 ω(x1i,x2i)=1hi\omega(x_{1i},x_{2i})=\sqrt{1-h_i} (hih_i 是帽子矩阵 H=X(XX)1XH=X(X^\top X)^{-1}X^\top\text{} 的对角元素) 或基于稳健 Mahalanobis 距离的权重:

w(x1i,x2i)={1,ifd(x1i,x2i)c~,{c~/d(x1i,x2i)}2,ifd(x1i,x2i)>c~.w(\mathbf{x}_{1i},\mathbf{x}_{2i})=\left\{\begin{array}{ll}1,&\text{if} d(\mathbf{x}_{1i},\mathbf{x}_{2i})\leq\tilde{c},\\\{\tilde{c}/d(\mathbf{x}_{1i},\mathbf{x}_{2i})\}^2,&\text{if} d(\mathbf{x}_{1i},\mathbf{x}_{2i})>\tilde{c}.\end{array}\right.

实际实施步骤如下:

  1. 估计 γ2(β0)\gamma_2(\beta_0),得到 γ^2(β0)\hat{\gamma}_{2}(\beta_{0}) (通过解特定方程)。
  2. 计算向量 ZnZ_n
  3. 估计协方差矩阵 U(Ψ,Fθ)U(\Psi,F_{\theta}),这可以通过计算相关矩阵 M(Ψ,Fn)M(\Psi,F_n)Q(Ψ,Fn)Q(\Psi,F_n) 来完成。

在实际应用中,可根据数据的特性选择合适的函数和权重。如果 MCD 估计不可行,可以使用基于帽子矩阵的权重;如果 M 估计不收敛,可以考虑使用 Huber 函数作为替代。在构建置信集时,需要对每个 β0\beta_0 计算稳健的 AR 测试统计量。如果出现数值优化问题,可以通过分析 PP 值曲线来判断,此时可能更适合使用 Huber 损失。

此外,当误差项为对称时,基于 Mallows 类型 M 估计量构建的稳健AR检验对异方差具有鲁棒性;即使在误差项不对称的情况下,使用这种类型 M 估计量的稳健 AR 检验对斜率参数的推断可能仍然有效。

2. 应用实例

这篇文章复现了三篇使用工具变量的论文 (Ananat,2011;Becker et al.,2011;Chodorow-Reich et al.,2012),并进行了稳健的 AR (Autoregressive) 检验。对于每项研究,选取一个 IV (工具变量) 回归,重新计算论文中使用的第一阶段 F 统计量和 ββ 置信区间,计算稳健 AR 检验的置信区间,并将其与原论文中使用的置信区间以及传统 AR 检验的置信区间进行比较。

为了解释这一目的,我们从三个回归模型中各移除一个异常观察值,并分析该异常值对第一阶段 F 统计量、AR 检验的置信区间以及稳健 AR 检验的置信区间的影响。在识别和处理异常值方面,传统方法是通过简单查看数据的直观方法来识别这些异常值,然后将其从数据中移除,再重新计算相关统计量和置信区间。然而,这种方法存在一些问题。首先,数据清洗后数据可能不再是独立同分布的 (i.i.d.),并且经典的渐近结果可能失效。其次,移除异常值可能会产生掩蔽效应,导致新的异常值出现,且难以判断何时应停止。因此,建议从一开始就依赖稳健 AR 检验。

2.1 种族隔离对经济不平等的因果影响

Ananat (2011) 的研究探讨了美国城市中种族隔离对经济不平等的因果影响。然而,城市种族隔离程度可能面临以下两种内生性问题:一是遗漏变量偏误 (Omitted Variable Bias),二是内生迁移 (Endogenous Migration)。遗漏变量偏误指的是一些未观测到的城市特征同时影响城市的种族隔离程度 (解释变量) 和城市的经济与社会结果 (被解释变量)。内生迁移则指的是人们的迁移选择受城市隔离程度的影响,不同特征的人群对隔离的反应也不同。这种反向因果关系和自我选择会产生双向因果,从而难以区分隔离对城市结果的影响,以及城市结果对隔离模式的影响。

这篇文章所采用的解决方法是使用 19 世纪铁路配置 (RDI) 作为工具变量。因为铁路布局的形成主要基于地形等外生因素,它影响了后来的隔离形成,但不太可能通过其他渠道直接影响现代城市结果。因此:

  • 工具变量:以铁路总长度为条件,使用 19 世纪铁路配置的函数作为城市在 20 世纪接收非裔美国人流入时隔离的工具变量。
  • 第一阶段:通过铁路分割指数 (RDIRDI) 和控制变量 (XX) 来解释隔离程度 (segseg)。

seg=α1RDI+α2X+μ\operatorname{seg}=\alpha_1 R D I+\alpha_2 X+\mu

  • 第二阶段:使用内生变量隔离程度 (segseg) 和控制变量 (XX) 来解释不同的贫困和不平等指标 (yy),并选择了 Gini 系数作为白人的不平等度量。

y=β1seg+β2X+εy=\beta_1 s e g+\beta_2 X+\varepsilon

数据的探索性分析:控制变量中至少存在一个异常值。

TABLE 1 Results using data from Ananat (2011)

With outlier Without outlier
Results from Ananat (2011)
First-stage F
95% conf. set

16.4516.45
(0.53,0.14)(−0.53,−0.14)

-
-
Our results
First-stage F
95% AR conf. set
95% robust AR conf. set

19.3219.32
(0.66,0.16)(−0.66,−0.16)
(,0.18)(2.97,)(-\infty,-0.18) \cup(2.97, \infty)

1.971.97
(,0.31)(2.19,)(-\infty,-0.31) \cup(2.19, \infty)
(,0.18)(2.20,)(-\infty,-0.18) \cup(2.20, \infty)

Notes: Confidence sets are given for the parameter belonging to the endogenous regress or "Segregation" (y1)(y_1) for the specification "Gini index whites" (y2)(y_2) corresponding to specifi cation (3) in tab. 2 in Ananat (2011). The robust AR test is based on a Mallows type M-esti mator using Tukey's biweight function and MCD weights.

结果显示,异常值对 F 统计量有显著影响。当数据中包含异常值时,第一阶 F 统计量为 19.32,这表明可以使用基于 2SLS 估计的 t 检验,似乎表明工具变量很强;而移除异常值后,第一阶 F 统计量降至 1.97,这表明工具变量实际上是弱的。这是因为 F 统计量依赖于 segsegRDIRDI 的线性关系,异常值导致最小二乘估计产生偏差,从而错误判断两者之间的关系。不论异常值是否存在,稳健 AR 检验的置信区间仅略微变化,这表明相比传统的 AR 检验,稳健 AR 检验在判断工具变量强度时具有更高的稳定性和可靠性,更准确地反映数据的真实情况,减少异常值对推断的干扰。

2.2 教育对普鲁士工业化的因果影响

Becker et al. (2011) 研究了教育对普鲁士工业化的因果影响。教育会影响工业化,而教育水平可能受到工业化的反向影响,例如,工业化进程可能促进教育资源的投入。因此,教育与工业化之间存在双向因果关系,这使得直接将教育水平作为解释变量会导致估计偏差。为了解决这一问题,作者使用 1816 年的教育水平作为工具变量来处理 1849 年教育的内生性问题。

第一阶段方程:

EdU1849=α2+β2EdU1816+X1849γ2+ϵ2\mathrm E\mathrm d\mathrm U_{1849}=\alpha_2+\beta_2\mathrm E\mathrm d\mathrm U_{1816}+X'_{1849}\gamma_2+\epsilon_2

EdU1849EdU_{1849} 表示 1849 年的教育水平,EdU1816EdU_{1816} 表示 1816 年的教育水平。这里 EdU1816EdU_{1816} 是工具变量,用来解释 1849 年的教育水平。X1849X_{1849}^{\prime} 是一组控制变量,用于捕捉影响 1849 年教育水平的其他因素,ϵ2\epsilon_{2} 是误差项。

第二阶段方程:

INd1849=α3+β3EdU1849+X1849γ3+y1816μ3+ϵ3\mathrm I\mathrm N\mathrm d_{1849}=\alpha_3+\beta_3\mathrm E\mathrm d\mathrm U_{1849}+X_{1849}'\gamma_3+y_{1816}'\mu_3+\epsilon_3

其中, INd1849INd_{1849} 表示 1849 年的工业化水平,EdU1849EdU_{1849} 是内生变量,即 1849 年的教育水平。X1849X_{1849}^{\prime}y1816y_{1816}^{\prime} 是控制变量集合,分别包含 1849 年和 1816 年的变量,ϵ3\epsilon_{3} 是误差项。

TABLE 2 Results using data from Becker et al. (2011)

With outlier Without outlier
Results from Becker et al. (2011)
First-stage F
90% conf. set

6207
(0.01, 0.26)

-
-
Our results
First-stage F
90% AR conf. set
90% robust AR conf. set

7737
(0,0.26)
(-0.03,0.08)

7701
(-0.01,0.20)
(-0.03,0.08)

Note: Confidence sets are given for the parameter belonging to the endogenous regressor “years of schooling in 1849” (y1y_1) corresponding to specification (6) in tab. 1 in Becker et al. (2011). The robust AR test is based on a Mallows type M-estimator using Tukey's biweight function and MCD weights.

结果表明,异常值影响 F 统计量、AR 检验置信区间和稳健 AR 置信区间。稳健 AR 检验的 90% 置信区间为 (-0.03, 0.08),与 AR 检验的置信区间及 t 检验的置信区间均不同。移除异常值后,稳健置信区间保持不变,而 AR 检验的置信区间则发生明显变化。这表明稳健 AR 检验受异常值影响较小,对数据中的异常值更具稳健性。从数据来看 (如观察图 8 中异常值情况及分析关系),原研究中使用经典方法得出的显著性结果可能主要由异常值驱动,而稳健 AR 检验则能更可靠地反映真实关系。

2.3 国家财政救济对就业的因果效应

Chodorow-Reich et al. (2012) 的研究主要探讨了美国州财政援助对就业的影响。由于州财政援助支出与州的经济环境存在内生性,因此使用工具变量 (IV) 方法。研究使用 2007 年的 Medicaid 支出作为州级财政援助的工具变量,目的是仅利用与经济衰退前 Medicaid 支出相关的 Medicaid 转移支付的跨州变异性。

第一阶段方程:

AidsNs=α0+α1Medicaid支出2007,sNs+α2controlss+us\frac{Aid_s}{N_s}=\alpha_0+\alpha_1\cdot\frac{\text{Medicaid支出}_{2007,s}}{N_s}+\alpha_2\cdot\text{controls}_s+u_s

AidsNs\frac{Aid_s}{N_s} 为州 ss 获得的财政援助;Medicaid支出2007,sNs\frac{\text{Medicaid支出}_{2007,s}}{N_s} 为州 ss 在 2007 年的 Medicaid 支出,是工具变量。

第二阶段方程:

E1sE0sNs=β0+β1(AidsNs)^+β2controlss+ϵs\frac{E_{1s}-E_{0s}}{N_s}=\beta_0+\beta_1\cdot\widehat{\left(\frac{Aid_s}{N_s}\right)}+\beta_2\cdot\mathrm{controls}_s+\epsilon_s

E1sE0sNs\frac{E_{1s}-E_{0s}}{N_s}ss 在经济衰退时的就业变化;(AidsNs)^\widehat{\left(\frac{Aid_s}{N_s}\right)} 第一阶段回归中预测得到的财政援助。

TABLE 3 Results using data from Chodorow-Reich et al. (2012)

With outlier Without outlier
Results from Chodorow-Reich et al. (2012)
First-stage F
90% conf. set

260
(0.08,1.90)

-
-
Our results
First-stage F
90% AR conf. set
90% robust AR conf. set

261
(0.44,1.62)
(-0.68,0.93)

215
(-0.12,0.99)
(-0.52,0.99)

Note: Confidence sets are given for the parameter belonging to the endogenous regressor “Federal Medical Assistance Percentages” (y1y_1) corresponding to specification (4) in tab. 4 in Chodorow-Reich et al. (2012). The robust AR test is based on a Mallows type M-estimator using Tukey's biweight function and MCD weights.

结果表明,数据最初呈现出正线性关系。当存在异常值时,第一阶段的 F 统计量为 261,移除异常值后为 215。两者都表明工具变量很强 (根据通常的判断标准,如较高的 F 统计量值意味着工具变量与内生变量的相关性强)。然而,异常值对 AR 检验有影响。当存在异常值时,90% AR 置信区间为 (0.44, 1.62),移除后变为 (-0.12, 0.99)。在移除异常值后的置信区间内,无法拒绝 H0:β=0H_0: \beta = 0,这可能导致假设检验结果的误判。

稳健 AR 检验的 90% 置信区间为 (-0.68, 0.93),小于 AR 置信区间且包含 0,这与 AR 检验结果不同。移除异常值后,稳健置信区间仅略有变化,基于此,仍无法拒绝 H0:β=0H_0: \beta = 0。这表明稳健 AR 检验受异常值影响较小,结果更为稳健。原研究中的显著性结果可能主要由异常值驱动,而稳健 AR 检验能够更准确地反映变量间的真实关系,为判断提供更可靠的依据。

3. RobustAR R 包使用指南

3.1 安装与加载

robustAR 的使用需要依赖 MASS 包,首先进行安装和加载:

# 安装MASS包
install.packages("MASS")
# 加载MASS包
library(MASS)

3.2 主要函数

计算稳健版本的 AR 统计量。

robustAR(Y,           # 因变量向量 
         X,           # 内生变量向量
         Z,           # 工具变量向量或矩阵
         W,           # 控制变量向量或矩阵
         beta0,       # 假设检验的beta0值
         type,        # 降权函数类型:"Huber"/"Tukey"/"OLS" 
         weighting,   # 权重方案:"hatmatrix"/"mcd"/"no"
         independence # 误差项独立性假设:"yes"/"no"
)

计算经典的 AR 统计量。

AR.statistic(Y,      # 因变量向量
            X,       # 内生变量向量
            Z,       # 工具变量向量或矩阵
            W,       # 控制变量向量或矩阵
            beta0    # 假设检验的beta0值
)

基于 2SLS 估计计算 t 检验统计量。

TSLS.t.test.statistic(Y,     # 因变量向量
                      X,     # 内生变量向量
                      Z,     # 工具变量向量或矩阵
                      W,     # 控制变量向量或矩阵
                      beta0  # 假设检验的beta0值
)

计算稳健 AR 检验的置信集。

robustAR.conf(Y,           # 因变量向量
              X,           # 内生变量向量
              Z,           # 工具变量向量或矩阵
              W,           # 控制变量向量或矩阵
              betagrid,    # beta0值网格
              alpha,       # 显著性水平
              type,        # 降权函数类型
              weighting,   # 权重方案
              independence # 误差项独立性假设
)

3.3 参数说明

降权函数 (type) 选项

  • Huber:Huber 降权函数 (默认 c=1.345)
  • Tukey:Tukey 双平方降权函数 (默认 c=4.685)
  • OLS:不使用降权,等同于普通最小二乘

权重方案 (weighting) 选项

  • hatmatrix:使用帽子矩阵计算权重
  • mcd:使用最小协方差行列式估计计算权重
  • no:不使用权重

3.4 使用示例

n <- 100
Y <- rnorm(n)
X <- rnorm(n) 
Z <- matrix(rnorm(n*2), n, 2)
W <- matrix(1, n, 1)

# 计算稳健AR统计量
result <- robustAR(Y, X, Z, W, beta0=0, 
                   type="Huber",
                   weighting="hatmatrix",
                   independence="no")

# 计算置信集
beta_grid <- seq(-2, 2, by=0.1)
conf_result <- robustAR.conf(Y, X, Z, W, 
                            betagrid=beta_grid, 
                            alpha=0.05,
                            type="Huber",
                            weighting="hatmatrix",
                            independence="no")

4. 参考资料

  • Ananat, E. O. (2011). The Wrong Side(s) of the Tracks: The Causal Effects of Racial Segregation on Urban Poverty and Inequality. American Economic Journal: Applied Economics, 3(2), 34–66. -Link- -Appendix- -Google-
  • Becker, S. O., Hornung, E., & Woessmann, L. (2011). Education and Catch-up in the Industrial Revolution. American Economic Journal: Macroeconomics, 3(3), 92–126. -Link- -Appendix- -Google-
  • Chodorow-Reich, G., Feiveson, L., Liscow, Z., & Woolston, W. G. (2012). Does State Fiscal Relief During Recessions Increase Employment? Evidence from the American Recovery and Reinvestment Act. American Economic Journal: Economic Policy, 4(3), 118–145. -Link- -Appendix- -Google-
  • Outlier robust inference in the instrumental variable model with applications to causal effects (replication data). -Link-
  • robustAR -Link-

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 工具变量, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

资源共享


尊敬的老师 / 亲爱的同学们:
连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。
请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。
我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。more……
  • 扫码加入连享会微信群,提问交流更方便