找不到IV?基于异方差构造工具变量

发布时间:2021-05-19 阅读 1389

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装命令如下:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:江鑫 (安徽大学)
邮箱:jiangxin199566@foxmail.com


目录


1. 背景介绍

在实证研究中,尽管工具变量 (IV) 是解决内生性问题的重要方法,但是寻找一个合适的工具变量却是困难的。为此,Lewbel (2012) 提出了在没有合适外生工具变量情况下,如何通过异方差来构造工具变量。

2. 理论介绍

假设有以下模型,其中 Y1 和 Y2 为内生变量,X 为外生协变量向量,并且误差项 ε1 和 ε2 可能相关,此时我们要估计 γ 和向量 β

标准工具变量估计依赖于一个出现在 Y2 方程中,但不在 Y1 方程中的 X 元素。不过,Lewbel (2012) 基于异方差的识别方法突破了传统工具变量估计必须满足排除性约束 (exclusion restriction) 条件的限制。具体地,该方法主要利用 ε2 的异方差中所包含的信息来构造 Y2 的有效工具变量。

标准回归模型的假设:

  • β 和 γ 是固定常数 (特别注意的是,Y2 是一个被处理变量,且处理效果假设是同质的);
  • 标准外生假设,即 E(Xε1)=0E(Xε2)=0,且 E(XX) 是非奇异的;

Lewbel (2012) 方法最关键的额外假设:

  • Cov(Z,ε1ε2)=0,且 Cov(Z,ε22)0,其中外生变量向量 Z=X,或 Z 是 X 元素的子集,Z¯ 为 Z 的均值。

Lewbel (2012) 方法可以总结为两个步骤:

  • 对方程 (2) 进行 OLS 线性回归,得到 α 的估计值 α^,以及残差估计值 ε^2=Y2Xα^
  • 令 Z 为部分或全部元素 X (不包括常数项),构造工具变量 (ZZ¯)ε^2。然后,将构造的工具变量引入方程 (1),并采用 2SLS 估计回归系数 β 和 γ

3. 注意事项

由于该方法中的关键假设 Cov(Z,ε1ε2)=0 和 Cov(Z,ε22)0 难以直接证明,因此 Lewbel (2012) 提出三个充分条件对该假设进行替代性检验。

A1:误差项 ε1 和 ε2 具有以下结构,即:

其中,c 是常数,UV1V2 是不可观测的误差项且独立于 Z。假设 A1 的解释是 Y2 是内生的,因为它包含出现在两个方程的误差项 U。这种假设是不可直接检验的,所以应通过经济或计量理论证明其合理性。例如,Y1 代表个体工资,Y2 代表个体的受教育程度,此时 U 可能是不可观测的能力,即同时影响 Y1 和 Y2V1 代表所有影响工资但不影响受教育程度的因素,V2 代表所有影响受教育程度但不影响工资的因素。

A2U2 与 Z 不相关

假设 A2 认为 U 满足同方差性。我们可以通过对方程 (1) 进行 Pagan 和 Hall (1983) 检验来看是否满足该假设。

A3ε22 与 Z 相关。

该假设认为方程 (2) 的误差项满足异方差性,以确保构造的工具变量与 Y2 相关。

4. 具体操作

安装命令:

ssc install center, replace
ssc install bcuse, replace
ssc install ivreg2h, replace

下载数据:

. bcuse engeldat // 调用数据集
. center age-twocars, prefix(z_) //变量标准化

. *以两阶段最小二乘估计为例
. ivreg2h foodshare z_* (lrtotexp = lrinc), small robust 

回归结果:

Standard IV Results
IV (2SLS) estimation
--------------------
Estimates efficient for homoskedasticity only
Statistics robust to heteroskedasticity
                                                      Number of obs =      854
                                                      F( 13,   840) =    12.41
                                                      Prob > F      =   0.0000
Total (centered) SS     =  9.637457679                Centered R2   =   0.2904
Total (uncentered) SS   =  78.91341406                Uncentered R2 =   0.9133
Residual SS             =  6.838888132                Root MSE      =   .09023
------------------------------------------------------------------------------
             |               Robust
   foodshare |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
    lrtotexp |     -0.086      0.020    -4.33   0.000       -0.125      -0.047
       z_age |     -0.014      0.007    -1.98   0.048       -0.028      -0.000
      z_age2 |      0.022      0.007     3.21   0.001        0.008       0.035
     z_agesp |      0.000      0.003     0.14   0.890       -0.006       0.007
    z_agesp2 |     -0.001      0.003    -0.21   0.836       -0.006       0.005
    z_spwork |     -0.013      0.008    -1.52   0.130       -0.029       0.004
        z_s1 |     -0.004      0.009    -0.48   0.631       -0.022       0.013
        z_s2 |     -0.015      0.009    -1.76   0.079       -0.032       0.002
        z_s3 |     -0.013      0.009    -1.43   0.153       -0.030       0.005
    z_washer |     -0.000      0.009    -0.02   0.986       -0.018       0.018
   z_gasheat |      0.007      0.007     1.05   0.296       -0.006       0.020
    z_onecar |     -0.033      0.010    -3.39   0.001       -0.052      -0.014
   z_twocars |     -0.050      0.013    -3.83   0.000       -0.076      -0.024
       _cons |      0.336      0.012    27.60   0.000        0.312       0.360
------------------------------------------------------------------------------
Underidentification test (Kleibergen-Paap rk LM statistic):             91.532
                                                   Chi-sq(1) P-val =    0.0000
------------------------------------------------------------------------------
Weak identification test (Cragg-Donald Wald F statistic):              211.280
                         (Kleibergen-Paap rk Wald F statistic):        219.969
Stock-Yogo weak ID test critical values: 10% maximal IV size             16.38
                                         15% maximal IV size              8.96
                                         20% maximal IV size              6.66
                                         25% maximal IV size              5.53
Source: Stock-Yogo (2005).  Reproduced by permission.
NB: Critical values are for Cragg-Donald F statistic and i.i.d. errors.
------------------------------------------------------------------------------
Hansen J statistic (overidentification test of all instruments):         0.000
                                                 (equation exactly identified)
------------------------------------------------------------------------------
Instrumented:         lrtotexp
Included instruments: z_age z_age2 z_agesp z_agesp2 z_spwork z_s1 z_s2 z_s3
                      z_washer z_gasheat z_onecar z_twocars
Excluded instruments: lrinc
------------------------------------------------------------------------------
IV with Generated Instruments only
Instruments created from Z:
z_age z_age2 z_agesp z_agesp2 z_spwork z_s1 
z_s2 z_s3 z_washer z_gasheat z_onecar z_twocars

IV (2SLS) estimation
--------------------
Estimates efficient for homoskedasticity only
Statistics robust to heteroskedasticity
                                                      Number of obs =      854
                                                      F( 13,   840) =    10.08
                                                      Prob > F      =   0.0000
Total (centered) SS     =  9.637457679                Centered R2   =   0.2469
Total (uncentered) SS   =  78.91341406                Uncentered R2 =   0.9080
Residual SS             =  7.257858456                Root MSE      =   .09295
------------------------------------------------------------------------------
             |               Robust
   foodshare |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
    lrtotexp |     -0.055      0.059    -0.94   0.347       -0.171       0.060
       z_age |     -0.015      0.008    -1.94   0.053       -0.030       0.000
      z_age2 |      0.023      0.007     3.09   0.002        0.008       0.037
     z_agesp |      0.001      0.004     0.34   0.735       -0.006       0.008
    z_agesp2 |      0.000      0.003     0.01   0.990       -0.006       0.006
    z_spwork |     -0.014      0.009    -1.52   0.128       -0.033       0.004
        z_s1 |     -0.003      0.009    -0.38   0.701       -0.021       0.014
        z_s2 |     -0.015      0.009    -1.68   0.093       -0.032       0.002
        z_s3 |     -0.011      0.009    -1.23   0.217       -0.029       0.007
    z_washer |     -0.000      0.009    -0.02   0.984       -0.019       0.018
   z_gasheat |      0.004      0.009     0.42   0.674       -0.014       0.022
    z_onecar |     -0.038      0.014    -2.65   0.008       -0.067      -0.010
   z_twocars |     -0.061      0.025    -2.47   0.014       -0.109      -0.013
       _cons |      0.318      0.035     9.03   0.000        0.249       0.387
------------------------------------------------------------------------------
Underidentification test (Kleibergen-Paap rk LM statistic):              7.200
                                                   Chi-sq(12) P-val =   0.8441
------------------------------------------------------------------------------
Weak identification test (Cragg-Donald Wald F statistic):                2.266
                         (Kleibergen-Paap rk Wald F statistic):          0.892
Stock-Yogo weak ID test critical values:  5% maximal IV relative bias    21.01
                                         10% maximal IV relative bias    11.52
                                         20% maximal IV relative bias     6.53
                                         30% maximal IV relative bias     4.75
                                         10% maximal IV size             43.27
                                         15% maximal IV size             23.24
                                         20% maximal IV size             16.35
                                         25% maximal IV size             12.82
Source: Stock-Yogo (2005).  Reproduced by permission.
NB: Critical values are for Cragg-Donald F statistic and i.i.d. errors.
------------------------------------------------------------------------------
Hansen J statistic (overidentification test of all instruments):        12.913
                                                   Chi-sq(11) P-val =   0.2991
------------------------------------------------------------------------------
Instrumented:         lrtotexp
Included instruments: z_age z_age2 z_agesp z_agesp2 z_spwork z_s1 z_s2 z_s3
                      z_washer z_gasheat z_onecar z_twocars
Excluded instruments: lrtotexp_z_age_g lrtotexp_z_age2_g lrtotexp_z_agesp_g
                      lrtotexp_z_agesp2_g lrtotexp_z_spwork_g lrtotexp_z_s1_g
                      lrtotexp_z_s2_g lrtotexp_z_s3_g lrtotexp_z_washer_g
                      lrtotexp_z_gasheat_g lrtotexp_z_onecar_g
                      lrtotexp_z_twocars_g
------------------------------------------------------------------------------
IV with Generated Instruments and External Instruments
Testing Orthogonality of Instruments created from Z:
z_age z_age2 z_agesp z_agesp2 z_spwork z_s1 
z_s2 z_s3 z_washer z_gasheat z_onecar z_twocars

IV (2SLS) estimation
--------------------
Estimates efficient for homoskedasticity only
Statistics robust to heteroskedasticity

                                                      Number of obs =      854
                                                      F( 13,   840) =    12.70
                                                      Prob > F      =   0.0000
Total (centered) SS     =  9.637457679                Centered R2   =   0.2891
Total (uncentered) SS   =  78.91341406                Uncentered R2 =   0.9132
Residual SS             =  6.851665184                Root MSE      =   .09031
------------------------------------------------------------------------------
             |               Robust
   foodshare |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
    lrtotexp |     -0.085      0.019    -4.48   0.000       -0.122      -0.048
       z_age |     -0.014      0.007    -1.98   0.048       -0.028      -0.000
      z_age2 |      0.022      0.007     3.21   0.001        0.008       0.035
     z_agesp |      0.000      0.003     0.15   0.882       -0.006       0.007
    z_agesp2 |     -0.001      0.003    -0.20   0.842       -0.006       0.005
    z_spwork |     -0.013      0.008    -1.52   0.129       -0.029       0.004
        z_s1 |     -0.004      0.009    -0.48   0.634       -0.022       0.013
        z_s2 |     -0.015      0.009    -1.75   0.080       -0.032       0.002
        z_s3 |     -0.013      0.009    -1.43   0.154       -0.030       0.005
    z_washer |     -0.000      0.009    -0.02   0.986       -0.018       0.018
   z_gasheat |      0.007      0.007     1.03   0.305       -0.006       0.020
    z_onecar |     -0.033      0.010    -3.40   0.001       -0.053      -0.014
   z_twocars |     -0.051      0.013    -3.86   0.000       -0.076      -0.025
       _cons |      0.336      0.012    28.99   0.000        0.313       0.358
------------------------------------------------------------------------------
Underidentification test (Kleibergen-Paap rk LM statistic):            101.566
                                                   Chi-sq(13) P-val =   0.0000
------------------------------------------------------------------------------
Weak identification test (Cragg-Donald Wald F statistic):               18.043
                         (Kleibergen-Paap rk Wald F statistic):         17.632
Stock-Yogo weak ID test critical values:  5% maximal IV relative bias    21.10
                                         10% maximal IV relative bias    11.52
                                         20% maximal IV relative bias     6.49
                                         30% maximal IV relative bias     4.71
                                         10% maximal IV size             45.64
                                         15% maximal IV size             24.42
                                         20% maximal IV size             17.14
                                         25% maximal IV size             13.41
Source: Stock-Yogo (2005).  Reproduced by permission.
NB: Critical values are for Cragg-Donald F statistic and i.i.d. errors.
------------------------------------------------------------------------------
Hansen J statistic (overidentification test of all instruments):        16.221
                                                   Chi-sq(12) P-val =   0.1813
-orthog- option:
Hansen J statistic (eqn. excluding suspect orthog. conditions):         16.046
                                                   Chi-sq(11) P-val =   0.1394
C statistic (exogeneity/orthogonality of suspect instruments):           0.175
                                                   Chi-sq(1) P-val =    0.6758
Instruments tested:   lrinc
------------------------------------------------------------------------------
Instrumented:         lrtotexp
Included instruments: z_age z_age2 z_agesp z_agesp2 z_spwork z_s1 z_s2 z_s3
                      z_washer z_gasheat z_onecar z_twocars
Excluded instruments: lrinc lrtotexp_z_age_g lrtotexp_z_age2_g
                      lrtotexp_z_agesp_g lrtotexp_z_agesp2_g lrtotexp_z_spwork_g
                      lrtotexp_z_s1_g lrtotexp_z_s2_g lrtotexp_z_s3_g
                      lrtotexp_z_washer_g lrtotexp_z_gasheat_g
                      lrtotexp_z_onecar_g lrtotexp_z_twocars_g
------------------------------------------------------------------------------

5. 参考资料

  • Lewbel A. Using Heteroscedasticity to Identify and Estimate Mismeasured and Endogenous Regressor Models[J]. Journal of business & economic statistics, 2012, 30(1):p.67-80. -PDF-
  • Baum C F, Lewbel A . Advice on using heteroskedasticity-based identification[J]. Stata Journal, 2019, 19(4):757-767. -PDF-
  • 张楠, 高梦媛, 寇璇. 卫生公平的文化壁垒——跨方言区流动降低了公共卫生服务可及性吗[J]. 财贸经济, 2021, 42(02):36-50. -Link-
  • 温兴祥. 本地非农就业对农村居民家庭消费的影响——基于CHIP农村住户调查数据的实证研究[J]. 中国经济问题, 2019(03):95-107. -Link-
  • 计量经济圈推文:基于异方差解决内生性问题方法的使用建议 -Link-

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 工具变量, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh