Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:蔡金威 (中山大学)
邮箱:caij66@mail2.sysu.edu.cn
编者按:本文主要摘译自下文,特此致谢!
Source:Ishimaru S. Empirical Decomposition of the IV–OLS Gap with Heterogeneous and Nonlinear Effects[J]. The Review of Economics and Statistics, 2021: 1-45. -PDF-
目录
工具变量回归是估计潜在内生变量因果效应的常见方法。计量经济学中将 IV 回归和普通最小二乘法 (OLS) 中
本文将介绍由 Ishimaru (2021) 提出的,具有异质性和非线性 IV-OLS 系数差距的实证分解框架。作者指出大部分文献都是在没有协变量或者固定协变量的单变量模型上做分解,而他受文献发展中的加权平均解释 (Lochner and Moretti,2015) 启发,将 IV-OLS 系数差距实证分解为处理水平
首先作者随机抽取 (
附加矩条件
然而上述的线性回归模型仅为 IV 与 OLS 系数的统计描述,并没有包含潜在 IV 和 OLS 系数的因果关系。为了解释潜在 IV 和 OLS 系数的因果关系,作者令
在上述假设的背景下,作者展示了 IV 与 OLS 系数的加权平均解释。
定理 1:IV 和 OLS 系数的加权平均解释。
其中,IV 系数识别的是因果关系
两个边际效应的差距来源于内生性偏差,即处理变量
在
援引 Lochner and Moretti (2015) 的结果,IV 和 OLS 系数
定理 2:IV 和 OLS 系数在特定协变量系数下的加权平均解释 (Lochner and Moretti,2015)。
定理 3:权重在处理水平
设
其中,IV 系数的解释和 OLS 系数的解释分别来自 schechtman and Yitzhaki (2004)和 Yitzhaki (1996)。此时的特定协变量系数是权重在处理水平
在定理 1-3 中对 IV 和 OLS 系数的加权平均解释推动了对 IV-OLS 系数差距分解。IV-OLS 系数差距可以分解成三个可估计的部分,分别是:
第一个部分的差异为协变量权重差异,对应于将权重放在协变量上时 IV 和 OLS 系数差异。
第二个部分是处理水平的权重差异,反映了将权重放在处理水平,同时有条件的将权重放在协变量上时的 IV 和 OLS 系数差距。
第三个部分为内生性偏差或边际效应差异,反应了 IV 和 OLS 识别的边际效应之间的差异,产生于
这三个部分的总和即为 IV 系数和 OLS 系数的差距,即
此实证框架可以在 DID 和 RD 的基础上进行拓展,在 DID 识别策略下,等式被改写为:
其中每个观测项
有了上述假设可以得到 IV 系数的加权平均解释。
定理 4:IV 系数加权平均解释:
其中
在给定条件独立性和可微性的条件后,可以得到定理 5。
定理 5:IV 系数是因果效应
IV 识别边际效果
基于定理 4、定理 5 和加权平均解释,内生性偏差分解仍然是有效的,如下所示:
只是这个分解式不再单独代表内生性偏差,第一项通过平均边际效应 AME
下面将介绍基于上述理论的 Stata 应用,即外部命令 ivolsdec
,该命令适用于解释结果变量
命令安装:
ssc install ivolsdec, replace
命令语法:
ivolsdec outcome (treatment=instruments) covariates [weight] [if exp]
[, xnbasis(varlist) wbasis(varlist) xibasis(varlist) vce(vcetype)
did rdd binary tlevel(numlist) cgroup(varlist) format(fmt)]
其中,
outcome
:结果变量;treatment
:处理变量;instruments
:工具变量 (可有多个工具变量);covariates
:协变量 (可有一系列协变量);weight
:权重 (分别为 fweight
、pweight
、aweight
、iweight
);xnbasis
:指定了未与 wbasis 交互的 X 的基函数;wbasis
:指定与 X 和 xibasis 交互的 W 的基函数,如果没有指定,将使用协变量中的变量;xibasis
:指定了与 wbasis 交互作用的 X 的基函数;vce
:指定报告的标准误差的类型,vcetype
接受 regress
和 ivregress
命令中的标准选项,例如 (cluster clustvar)
;did
:表示原始的 IV 回归在工具变量中使用 DID 变化进行识别;rdd
:表示原始的 IV 回归实现了 (模糊) 不连续回归设计;format
:指定结果的显示格式。接着,我们使用一个女性工资调查数据来检验此命令。数据中每个个体为一名女性,包括了其工资,以及其他一些人口地理学特征。其中一部分女性的工资为缺失值,意味着未进入劳动力市场。
具体变量包括:教育年限 educ、年龄 age、是否黑人 black、1966 年在是否大都市 smsa66、1976 年是否在大都市 smsa、1966 年是否在南部城市 south66、14 岁时是否跟随单亲母亲生活 sinmom14、工作知识面 kww、是否有接近四年的大学学历 nearc4、受高等教育的年限 educ_c。
下面利用 regress
和 ivregress
命令估计的 OLS 系数与 IV 系数 (ivolsdec
命令不用提前算 OLS 系数与 IV 系数)。
. use http://www.stata.com/data/jwooldridge/eacsap/card, clear
. regress lwage educ age black smsa66 south66 sinmom14 kww, robust
Linear regression Number of obs = 2,963
F(7, 2955) = 162.97
Prob > F = 0.0000
R-squared = 0.2680
Root MSE = .37809
------------------------------------------------------------------------------
| Robust
lwage | Coefficient std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
educ | 0.026 0.003 8.22 0.000 0.020 0.032
age | 0.030 0.003 11.71 0.000 0.025 0.035
black | -0.117 0.020 -5.80 0.000 -0.157 -0.078
smsa66 | 0.101 0.015 6.74 0.000 0.072 0.130
south66 | -0.092 0.016 -5.69 0.000 -0.123 -0.060
sinmom14 | -0.018 0.023 -0.77 0.442 -0.063 0.027
kww | 0.009 0.001 7.75 0.000 0.007 0.011
_cons | 4.788 0.079 60.94 0.000 4.634 4.942
------------------------------------------------------------------------------
. ivregress 2sls lwage (educ=nearc4) age black smsa66 south66 sinmom14 kww, robust
Instrumental variables 2SLS regression Number of obs = 2,963
Wald chi2(7) = 874.29
Prob > chi2 = 0.0000
R-squared = 0.0805
Root MSE = .4232
------------------------------------------------------------------------------
| Robust
lwage | Coefficient std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
educ | 0.111 0.066 1.68 0.093 -0.018 0.240
age | 0.045 0.012 3.82 0.000 0.022 0.068
black | -0.123 0.023 -5.40 0.000 -0.167 -0.078
smsa66 | 0.087 0.020 4.43 0.000 0.049 0.126
south66 | -0.062 0.029 -2.16 0.031 -0.119 -0.006
sinmom14 | 0.036 0.049 0.73 0.466 -0.060 0.131
kww | -0.005 0.011 -0.49 0.626 -0.027 0.016
_cons | 3.701 0.841 4.40 0.000 2.053 5.350
------------------------------------------------------------------------------
Instrumented: educ
Instruments: age black smsa66 south66 sinmom14 kww nearc4
ivolsdec lwage (educ=nearc4) age black smsa66 south66 sinmom14 kww, xnb(i.educ) format(%7.3f)
Outcome (Y): lwage
Treatment (X): educ
Instruments (Z): nearc4
Covariates (W): age black smsa66 south66 sinmom14 kww
Basis functions for auxiliary regressions have been specified as below.
p(X): i.educ
q(W): age black smsa66 south66 sinmom14 kww
r(X):
See -help ivolsdec- for what they are and how they should be chosen.
Decomposition Results
| Coef StdErr
--------------------+------------------
OLS | 0.026 0.003
IV | 0.111 0.066
IV-OLS Gap | 0.085 0.066
Covariate Weight | -0.004 0.008
Treatment-level Wgt | -0.007 0.008
Marginal Effect | 0.096 0.067
Number of Observations: 2963
VCE Type: robust
在上表中,第一行为 OLS 系数和标准误,第二行为 IV 系数和标准误,第三行为 IV-OLS 系数差距和标准误,第四行为协变量权重差距和标准误,第五行为处理水平权重差距和标准误,第六行为边际效应差距和标准误。其中, OLS 和 IV 估计的系数和标准误直接来源于 regress
和 ivregress
命令中 regress
命令计算得到。可以看出,IV-OLS 系数差距= IV 系数- OLS 系数,即为协变量权重差距、处理水平权重差距和边际效应差距的和。
另外,在计算系数分解时,此命令执行以下两个辅助 OLS 回归:
以及
其中,wbasis
指定的一组 xibasis
指定的一组