Stata:IV和OLS估计系数差异分解-ivolsdec

发布时间:2022-12-21 阅读 543

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:蔡金威 (中山大学)
邮箱caij66@mail2.sysu.edu.cn

编者按:本文主要摘译自下文,特此致谢!
Source:Ishimaru S. Empirical Decomposition of the IV–OLS Gap with Heterogeneous and Nonlinear Effects[J]. The Review of Economics and Statistics, 2021: 1-45. -PDF-


目录


1. 引言

工具变量回归是估计潜在内生变量因果效应的常见方法。计量经济学中将 IV 回归和普通最小二乘法 (OLS) 中 X 系数估计之间的差异解释为与遗漏变量、选择误差、测量误差和双向因果有关的内生性偏差。如果这些解释不能为 IV-OLS 系数差距提供一个合理解释,实证研究者会考虑会有这样一种可能性,回归方程为线性预测模型,并且允许处理水平在真正的因果关系中具有异质性和非线性。IV-OLS 系数差距是 IV 和 OLS 系数对不同的处理边际和个人群体给予不同的权重形成的。

本文将介绍由 Ishimaru (2021) 提出的,具有异质性和非线性 IV-OLS 系数差距的实证分解框架。作者指出大部分文献都是在没有协变量或者固定协变量的单变量模型上做分解,而他受文献发展中的加权平均解释 (Lochner and Moretti,2015) 启发,将 IV-OLS 系数差距实证分解为处理水平 X 上的权重差,协变量 W 上的权重差和内生性偏差部分。

2. 理论基础

2.1 模型和条件

首先作者随机抽取 (YXWZ),其中 Y 是一个标量结果变量,X 是一个标量处理变量,W 是一个协变量向量,Z 是一个标量工具变量。为了评估变量 X 对结果变量 Y 的影响,指定一个线性回归模型:

附加矩条件 E(εZ)=0 和 E(εX)=0 后,分别将线性 IV 系数 βIV 和 OlS 系数 βOLS 表示为:

然而上述的线性回归模型仅为 IV 与 OLS 系数的统计描述,并没有包含潜在 IV 和 OLS 系数的因果关系。为了解释潜在 IV 和 OLS 系数的因果关系,作者令 X 为 Y 的内生性变量,即 Y=Y(X)。同时令该模型满足下列假设:

  • 模型满足多元线性回归的基本条件;
  • 工具变量 Z 具有外生性和相关性;
  • 条件平均数 E(Z|W) 和 E(X|W) 是线性的;
  • 变量 X 在模型中是连续和可微的。

在上述假设的背景下,作者展示了 IV 与 OLS 系数的加权平均解释。

2.2 定理

定理 1:IV 和 OLS 系数的加权平均解释。

其中,IV 系数识别的是因果关系 xg(x,w) 的加权平均。OLS 系数的加权平均解释援引 Angrist and Krueger(1999) 的结果,识别的是条件平均函数 xm(x,w) 中的加权平均斜率。OLS 识别的边际效应和 IV 识别的边际效应之间的关系可以被解释为:

两个边际效应的差距来源于内生性偏差,即处理变量 x 和不可观测项 U 之间的关系,由此我们可以得到第一个 IV-OLS 系数差距的来源。然而,权重函数 wZ 和 wX 同样也是造成 IV-OLS 系数差距的原因,为了探究权重函数对 IV-OLS 系数所造成的差距。我们在协变量 W=w 时,令 w¯R(w)=wR(x,w)dx(R=Z,W)。边际 IV 和 OLS 权重可以被解释为:

在 W=w 时,IV 和 OLS 系数可以表示为:

援引 Lochner and Moretti (2015) 的结果,IV 和 OLS 系数 βIV 和 βOLS 可以被看成是特定协变量系数 bIV 和 bOLS 的加权平均数。如下所示:

定理 2:IV 和 OLS 系数在特定协变量系数下的加权平均解释 (Lochner and Moretti,2015)。

定理 3:权重在处理水平 X 上时特定协变量系数的解释。

设 wR(x|w)=wR(x,w)/w¯R(w) 为给定 W=w 时,处理水平 X 的条件权重。在上述假设以及新追加的假设 Cov(U,Z|W=)=0Cov(X,Z|W=w)0 和 Var(X|W=w)>0 的情况下,特定协变量系数可以解释为:

其中,IV 系数的解释和 OLS 系数的解释分别来自 schechtman and Yitzhaki (2004)和 Yitzhaki (1996)。此时的特定协变量系数是权重在处理水平 X 上时,已识别边际效应 xg(x,w) 和 xm(x,w) 的加权平均数。

2.3 IV-OLS 系数差距的分解

在定理 1-3 中对 IV 和 OLS 系数的加权平均解释推动了对 IV-OLS 系数差距分解。IV-OLS 系数差距可以分解成三个可估计的部分,分别是:

  • 协变量权重差异,即权重放在协变量 W 上的 IV 和 OLS 之间系数差异;
  • 处理水平的权重差异,权重在不同处理水平 X 的差异;
  • 内生性偏差 (或边际效应偏差),是 IV 和 OLS 识别的边际效应之间的差异,源于处理水平 X 和不可观察项 U 之间的相关性。

第一个部分的差异为协变量权重差异,对应于将权重放在协变量上时 IV 和 OLS 系数差异。

第二个部分是处理水平的权重差异,反映了将权重放在处理水平,同时有条件的将权重放在协变量上时的 IV 和 OLS 系数差距。

第三个部分为内生性偏差或边际效应差异,反应了 IV 和 OLS 识别的边际效应之间的差异,产生于 X 的内生性。

这三个部分的总和即为 IV 系数和 OLS 系数的差距,即 βIVβOLS=ΔCW+ΔTW+ΔME

2.4 在 DID 与 RD 基础上分解

此实证框架可以在 DID 和 RD 的基础上进行拓展,在 DID 识别策略下,等式被改写为:

其中每个观测项 g{1,...,G},时间 t{1,...,T} 和工具变量 Z 在 (g,t) 中总是不变的。由于线性函数假设不成立,需要再添加下列假设条件:

  • 线性结构函数的假设,即在 W 中 g(x,w) 对于任意 x(x_,x¯) 都是线性的;
  • 潜在结果 Y(x) 满足 Cov(Y(x),Z|W)=0 的条件独立性和可微性。

有了上述假设可以得到 IV 系数的加权平均解释。

定理 4:IV 系数加权平均解释:

其中 wZ(x,w)=Lw(1XxZ~)/E(X~Z~) 满足 wZ(x,w)dFW(w)dx=1,并且在协变量满足 W=w 和处理水平满足 X=x 的条件时有以下结果:

在给定条件独立性和可微性的条件后,可以得到定理 5。

定理 5:IV 系数是因果效应 Y(x) 的加权平均数:

IV 识别边际效果 τIV(x,w)=E[Y(x)λ(Y(x)|x,w)|W=w]

基于定理 4、定理 5 和加权平均解释,内生性偏差分解仍然是有效的,如下所示:

只是这个分解式不再单独代表内生性偏差,第一项通过平均边际效应 AME τ(x,w) 差异衡量了内生性偏差,第二项则代表了不可观测项驱动的权重差异。尽管内生性偏差和不可观测项驱动的权重差异并不能单独识别,但是总的来说仍然好于直接观测 IV-OLS 系数差距。

3. Stata 应用

下面将介绍基于上述理论的 Stata 应用,即外部命令 ivolsdec,该命令适用于解释结果变量 Y 和处理变量 X 之间关系的非线性和观察到的异质性,允许 X 对 Y 的真正因果影响在 X 中是非线性的,在 W 中是异质性的,并评估 IV-OLS 系数差距如何受到 IV 和 OLS 估计中 X 和 W 权重的影响。

命令安装:

ssc install ivolsdec, replace

命令语法:

ivolsdec outcome (treatment=instruments) covariates [weight] [if exp] 
    [, xnbasis(varlist) wbasis(varlist) xibasis(varlist) vce(vcetype) 
    did rdd binary tlevel(numlist) cgroup(varlist) format(fmt)]

其中,

  • outcome:结果变量;
  • treatment:处理变量;
  • instruments:工具变量 (可有多个工具变量);
  • covariates:协变量 (可有一系列协变量);
  • weight:权重 (分别为 fweightpweightaweightiweight);
  • xnbasis:指定了未与 wbasis 交互的 X 的基函数;
  • wbasis:指定与 X 和 xibasis 交互的 W 的基函数,如果没有指定,将使用协变量中的变量;
  • xibasis:指定了与 wbasis 交互作用的 X 的基函数;
  • vce:指定报告的标准误差的类型,vcetype 接受 regressivregress 命令中的标准选项,例如 (cluster clustvar)
  • did:表示原始的 IV 回归在工具变量中使用 DID 变化进行识别;
  • rdd:表示原始的 IV 回归实现了 (模糊) 不连续回归设计;
  • format:指定结果的显示格式。

接着,我们使用一个女性工资调查数据来检验此命令。数据中每个个体为一名女性,包括了其工资,以及其他一些人口地理学特征。其中一部分女性的工资为缺失值,意味着未进入劳动力市场。

具体变量包括:教育年限 educ、年龄 age、是否黑人 black、1966 年在是否大都市 smsa66、1976 年是否在大都市 smsa、1966 年是否在南部城市 south66、14 岁时是否跟随单亲母亲生活 sinmom14、工作知识面 kww、是否有接近四年的大学学历 nearc4、受高等教育的年限 educ_c

下面利用 regressivregress 命令估计的 OLS 系数与 IV 系数 (ivolsdec 命令不用提前算 OLS 系数与 IV 系数)。

. use http://www.stata.com/data/jwooldridge/eacsap/card, clear
. regress lwage educ age black smsa66 south66 sinmom14 kww, robust

Linear regression                               Number of obs     =      2,963
                                                F(7, 2955)        =     162.97
                                                Prob > F          =     0.0000
                                                R-squared         =     0.2680
                                                Root MSE          =     .37809
------------------------------------------------------------------------------
             |               Robust
       lwage | Coefficient  std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
        educ |      0.026      0.003     8.22   0.000        0.020       0.032
         age |      0.030      0.003    11.71   0.000        0.025       0.035
       black |     -0.117      0.020    -5.80   0.000       -0.157      -0.078
      smsa66 |      0.101      0.015     6.74   0.000        0.072       0.130
     south66 |     -0.092      0.016    -5.69   0.000       -0.123      -0.060
    sinmom14 |     -0.018      0.023    -0.77   0.442       -0.063       0.027
         kww |      0.009      0.001     7.75   0.000        0.007       0.011
       _cons |      4.788      0.079    60.94   0.000        4.634       4.942
------------------------------------------------------------------------------

. ivregress 2sls lwage (educ=nearc4) age black smsa66 south66 sinmom14 kww, robust

Instrumental variables 2SLS regression            Number of obs   =      2,963
                                                  Wald chi2(7)    =     874.29
                                                  Prob > chi2     =     0.0000
                                                  R-squared       =     0.0805
                                                  Root MSE        =      .4232
------------------------------------------------------------------------------
             |               Robust
       lwage | Coefficient  std. err.      z    P>|z|     [95% conf. interval]
-------------+----------------------------------------------------------------
        educ |      0.111      0.066     1.68   0.093       -0.018       0.240
         age |      0.045      0.012     3.82   0.000        0.022       0.068
       black |     -0.123      0.023    -5.40   0.000       -0.167      -0.078
      smsa66 |      0.087      0.020     4.43   0.000        0.049       0.126
     south66 |     -0.062      0.029    -2.16   0.031       -0.119      -0.006
    sinmom14 |      0.036      0.049     0.73   0.466       -0.060       0.131
         kww |     -0.005      0.011    -0.49   0.626       -0.027       0.016
       _cons |      3.701      0.841     4.40   0.000        2.053       5.350
------------------------------------------------------------------------------
Instrumented: educ
 Instruments: age black smsa66 south66 sinmom14 kww nearc4

3.1 IV-OLS 系数差距分解

 ivolsdec lwage (educ=nearc4) age black smsa66 south66 sinmom14 kww, xnb(i.educ) format(%7.3f)
 Outcome (Y): lwage
 Treatment (X): educ
 Instruments (Z): nearc4
 Covariates (W): age black smsa66 south66 sinmom14 kww

 Basis functions for auxiliary regressions have been specified as below.
 p(X): i.educ
 q(W): age black smsa66 south66 sinmom14 kww
 r(X): 
 See -help ivolsdec- for what they are and how they should be chosen.
 
Decomposition Results
                    |    Coef   StdErr 
--------------------+------------------
                OLS |   0.026    0.003 
                 IV |   0.111    0.066 
         IV-OLS Gap |   0.085    0.066 
   Covariate Weight |  -0.004    0.008 
Treatment-level Wgt |  -0.007    0.008 
    Marginal Effect |   0.096    0.067 

Number of Observations: 2963
VCE Type: robust

在上表中,第一行为 OLS 系数和标准误,第二行为 IV 系数和标准误,第三行为 IV-OLS 系数差距和标准误,第四行为协变量权重差距和标准误,第五行为处理水平权重差距和标准误,第六行为边际效应差距和标准误。其中, OLS 和 IV 估计的系数和标准误直接来源于 regressivregress 命令中 X 的系数和标准误,分解估计的标准误则利用 regress 命令计算得到。可以看出,IV-OLS 系数差距= IV 系数- OLS 系数,即为协变量权重差距、处理水平权重差距和边际效应差距的和。

另外,在计算系数分解时,此命令执行以下两个辅助 OLS 回归:

以及

其中,q(W)wbasis 指定的一组 W 的基函数 (默认值为 q(W)=W),r(X)xibasis 指定的一组 X 的基函数 (默认值为 r(X)=0),