locmtest:非线性模型的内生性检验

发布时间:2021-01-07 阅读 728

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者: 黄钊琳 (中山大学)
邮箱: 907641684@qq.com


目录


本文编译自如下论文,特此致谢:
Michael P. Babington, Javier Cano-Urbina. A Test for Exogeneity in the Presence of Nonlinearities. Stata Journal, 2016, 16(3):761-777. -PDF-

1. 引言

在许多的经济应用中,经常会产生非线性关系。即使潜在的内生变量其实是非线性地进入关系,我们通常假设其线性进入关系,然后运用 Hausman 检验。然而在存在这些非线性的情况下,Hausman 检验对潜在的内生变量是否外生是不知情的。

因此,当结果变量和离散的潜在内生变量之间是非线性关系时,为了评估非线性模型的内生性,locmtest 命令应运而生。本文主要介绍 locmtest 命令的应用背景、基本思想和实例应用。

2. 非线性模型的内生性检验

本命令是在 Lochner and Moretti (2015, Review of Economics and Statistics 97: 387–397) 提出的非线性模型的内生性检验基础上开发的。

2.1 适用场景

值得注意的是,在 Lochner and Moretti (2015) 基础上开发的测试并不适用于所有非线性模型,而只适用于以下情况:

假设我们估计变量 si 对结果 yi 的影响,其中 si{0,1,2,3,,S}xi 是外生变量,因此可以写出以下的等式:

当 sij 时,Dij=1 ,反之则为0,且 E(εi)=0E(εixi)=0

如果 si 是潜在的内生变量,在研究中通常估计 si 与 yi 存在线性关系如下式:

但不同的是它隐含的假设是 si 对结果的影响在所有 si 水平上都是一致的,而 (1) 式则允许不同 si 水平对结果变量有不同的影响。

因此,本命令只在 (1) 式和 (2) 式描述的特定模型中适用。同时不难看出,还需要满足三个至关重要的条件:

  • 必须存在单个有限值离散潜在内生变量 si
  • 外生变量 xi 是可加可分的,线性进入方程;
  • 总体中所有系数均为均匀系数。

2.2 理论前提

在之前的研究中, (2) 式中内生性问题通常是使用 Hausman 检验即基于 OLS 和 IV 或 2SLS 估计的比较,但是 Lochner and Moretti 发现,当真实关系用 (1) 描述时,用 (2) 估计可以导致不同的普通最小二乘 OLS 、 IV 和两阶段最小二乘 2SLS ,如果用 Hausman 检验有可能会导致错误的内生性结论。因此, Lochner and Moretti 针对这种情况提出了一个新的稳健性检验。

下面给出当非线性模型 (1) 是正确时,会导致线性模型 (2) 中的 β^L 在OLS 和 IV 或 2SLS 中出现不同的加权平均值的数学证明。

首先从 IV 估计看起,标准的 IV 估计会使得 (2) 式中的 βj 收敛到 (1) 式中特定水平权重 βj 的值。我们只考虑一个工具变量 zi ,定义 Mx=Ix(xx)1x ,同时假设存在变量 w ,让 w~=Mxw , IV 估计中 βj 的估计量如下:

其中,ω^jIV=(z~s~)1z~Dj 紧接着为了求出 βj 的概率极限和收敛到该极限的必要假设,考虑两个线性关系:

  • si=xiδs+ηi
    其中 δs={E(xixi)}1E(xisi)
    且 E(xiηi)=0
  • zi=xiδz+ζi
    其中 δz={E(xixi)}1E(xizi)
    且 E(xiζi)=0

满足假设1:已知 E(ziεi)=0 ,在控制了 xi 之后 zi 与 si 相关,假设 E(ziηi)0
的前提下,那么可以得到 βj 的概率极限为:

对所有的 j=1,2...S,权重 wj 的和为1,式子如下:

而 wj 的样本估计量 ω^jIV=(z~s~)1z~Dj ,又

因此不难得出 ω^jIVpωjIV

同理对于 2SLS ,如果有多个工具变量 zi=(zi1,,ziI) 让 zil=xiδzl+ζil ,其中 δzl={E(xixi)}1E(xizil) 且 E(xiζil)=0

满足假设1和假设2: zi 的相关性矩阵 E(ζiζi) 是满秩矩阵的情况下,同样 βL 估计量依概率收敛到 βj 的加权平均:

同理,2SLS的 wj 也是一致的,其样本估计量即是 (4) 式中 si 系数的估计量。

最后,为了考虑为什么 Hausman 检验可能得出错误结论,OLS 估计如下:

而 ω^jOLS=(s~s~)1s~Dj ,如果内生性不成立,那么:

同理 wj 也是一致的。

因此,标准的 Hausman 测试是基于 OLS 和 IV 或 2SLS 估计之间的差异。 然而,上述分析表明,即使在没有内生性的情况下,OLS 和 IV 或 2SLS 估计量也会收敛到不同的加权平均值;见 (3)、 (5) 和 (6)。 如果 OLS 和 IV 或 2SLS 的权重有很大的不同,这会产生不同的OLS和IV或2SLS估计,反过来又会导致使用标准 Hausman 检验出现错误。

2.3 Wald 检验

Lochner and Moretti 发现,如果 si 是外生的,那么 E(εisi)=0 ,那么OLS的估计量 B=(β1,,βS) 在非线性模型 (1) 中是一致的。如果这个结果和 (5) 式中 2SLS 估计的 βj 概率极限值结合。可以得到结论如下:

反之,如果 si 是内生的,则此结论不成立。

因此,Lochner and Moretti 提出的 Wald Test 主要分为两步,一是将所有参数的帧估计 (frame estimation) 作为一种叠加广义矩 (GMM) 问题来导出他们的渐进分布;二是利用δ方法导出 (7) 所呈现的变换的渐近分布。

省略 GMM 的编写过程,以下定理总结了 Lochner and Moretti (2015) 的主要结果。

定理:在假设 1 和 2 的前提下,如果 E(εisi)=0 ,那么

Lochner and Moretti 采取了蒙特卡罗模拟 1000 个观察值,发现当 si 为外生,真实模型是 (2) 式时,Wald 检验与 Durbin-Wu-Hausman(DWH) 检验相同,两者均在 0.05 的显着性水平上无法拒绝外生性。如果 yi 和 si 之间的真实关系是非线性,则 Wald 测试继续拒绝 5% 显著性,而DWH则随着非线性程度的增加而以增加的速度拒绝。 因此如果样本大小大于 1,000 个观测值,渐近结果表现应该更明显。下文有实例可以更好说明。

3. Stata 实操:locmtest 命令

我们可以用 locmtest 命令来实现 Lochner–Moretti (LM) 检验。在输入命令后,会显示 (1) 式 OLS、2SLS 和 IV 估计的 βj 值,以及 Wald Test、Naive Test 和 DWH test 的数值和 P 值。如果在 5% 显著性水平下拒绝假设,则表明存在内生性。如果不拒绝外生性,我们可以使用 locmtest 的结果来部分解释 OLS 和 2SLS 之间的差异。

locmtest 是外部命令,安装方法如下:

. ssc install locmtest, replace

基本语法格式如下:

locmtest depvar (varlist1 = varlist_iv) [indepvars]  ///
         [if] [, graph coefficients] `

其中:

  • depvar 是要使用的因变量
  • varlist1 是离散内生变量
  • varlist_iv 是工具变量集
  • indepvars 是外生变量列表
  • graph 选项可以显示 (1) 式中 OLS 特定水平的估计量图表,包括 B=(β1,,βS) ,估计权重 ω^OLS=(ω^1OLS,,ω^SOLS) ,以及2SLS 的估计权重 ω^2SLS=(ω^12SLS,,ω^S2SLS)
  • coefficients 选项会显示 (1) 式中OLS特定水平估计量矩阵,同样包括 B、 ω^OLSω^2SLS

需要注意的是,虽然此命令允许 indepvars 中出现因子变量,但它不允许 varlist_iv 中出现因子变量。有关因子变量的使用,请参见 help fvvarlist,以及连享会推文 Stata:因子变量全攻略

3.1 实例 A:Card (1995a) 估计教育的回报率

这里,我们以 Card (1995a) 的数据来估计教育对收入的影响。

其中 lnwi 是一小时收入的对数,si{1,2,,18} 是教育年限。我们担忧在这种情况下,si 是内生的,因为有一些未观察到的个体特征决定了收入和教育年限,例如,一个人的观察能力。

现在假设群体中,由于羊皮效应,lnwi 和 si 之间的真实关系是非线性的:

此时,即使 si 是外生的,使得 E(εisi)=0 ,我们也可以使用 (8) 式从 OLS 和 IV 获得不同的估计,因此如果我们只使用标准的 Hausman 检验,那么很可能导致不正确的结论。下面运用 locmtest 命令进行 LM 检验。

use http://www.stata.com/data/jwooldridge/eacsap/card, clear
locmtest lwage (educ = nearc4) exper expersq,graph coefficient

=================================================== 
Output for the Lochner & Moretti (2015) Wald Test  
=================================================== 
 
Output Variable y: lwage
Endogenous Variable s: educ
Instruments z: nearc4
 
Number of observations = 3010
Number of Categories of Endogenous variable is: 18
Number of Dummies is: 17
 
The number of Excluded Instruments is: 1
 
Estimated Coefficients 
 
             |      Coef.    Std. Err.
-------------+------------------------
         OLS |  .09317071   .00357785
          IV |  .25871555   .03373941
       RWOLS |  .09072257   .00573885
-------------+------------------------
 
Estimated Test Statistics 
             |      Test     p-value
-------------+------------------------
     LM-Wald |   24.19655   8.699e-07
  Naive Wald |   30.12477   4.051e-08
    DWH Test |  41.823868   1.162e-10
-------------+------------------------
 
NOTES: 
 
RWOLS = Reweighted OLS using TSLS Weights 
 
LM-Wald = Lochner-Moretti Wald Test
 
Naive Wald = [ (IV-OLS) / SD(IV-OLS) ]^2 
 
DWH Test: Durbin-Wu-Hausman Test (Augmented Regression).
 

注意到结果,IV 估计系数值大于 OLS 估计系数值,这与学校教育的内生性可能会高估 OLS 的教育效果的假设相反。 虽然对这一结果有几种解释,如测量误差和学校教育影响的个体异质性,但收入与学校教育中的非线性关系也是原因。考虑到可能的羊皮效应,这种可能性无疑大大提高了。Naive Wald 和 DWH 检验都拒绝外部性。LM 检验也拒绝外部性,这降低了人们对前几次检验的结论是由于错误判断关系导致的担忧。

3.2 实例 B:Lochner and Moretti (2015) - 教育与犯罪率

我们的第二个例子使用 Lochner and Moretti (2015),研究教育对犯罪的影响。他们估计的线性模型设定如下:

其中,pi 是虚拟变量,如果调查对象在监狱,其值为1,否则为0。si{1,2,,18} 是教育年限。但是多年的教育 si 可能是内生的,因为有一些未观察到的因素 (例如耐心) 决定了一个人的教育程度,也可能决定了个人的犯罪倾向。

再次假设真实模型如下:

我们只关注在黑人男性中这一效应的影响,应用命令得到结果:

. use "http://eml.berkeley.edu//~moretti/inmates", clear  

*省略数据处理后* 
. locmtest prison (educ = ca9 ca10 ca11)    ///
           i.rage i.year i.state i.birthpl i.birthpl#i.BBeduc   

=================================================== 
Output for the Lochner & Moretti (2015) Wald Test  
=================================================== 
 
Output Variable y: prison
Endogenous Variable s: educ
Instruments z: ca9 ca10 ca11
 
Number of observations = 401529
Number of Categories of Endogenous variable is: 19
Number of Dummies is: 18
 
The number of Excluded Instruments is: 3
 
Estimated Coefficients 
 
             |      Coef.    Std. Err.
-------------+--------------------------
         OLS |  -.00369034   .00008333
          IV |   -.0047513   .00115743
       RWOLS |  -.00073792   .00017873
-------------+--------------------------
 
Estimated Test Statistics 
             |      Test     p-value
-------------+------------------------
     LM-Wald |   11.944147  .00054819
  Naive Wald |   .97566386  .32327168
    DWH Test |   .51540357  .47280942
-------------+------------------------
 
NOTES: 
 
RWOLS = Reweighted OLS using TSLS Weights 
 
LM-Wald = Lochner-Moretti Wald Test
 
Naive Wald = [ (IV-OLS) / SD(IV-OLS) ]^2 
 
DWH Test: Durbin-Wu-Hausman Test (Augmented Regression).

值得注意的是,无论是 Naive Wald 还是 DWH 检验都不能拒绝外部性,但是 LM 检验拒绝它。因此在这个例子中,水平特定效应的差异可能导致标准 Hausman 检验在应该拒绝时不能拒绝外部性。

3.2 实例 C:Lochner and Moretti (2015) - 白人男性的教育与犯罪率

依然是研究实例 B 中的教育对犯罪的影响,但是对象换成了白人男性。模型假定与实例 B 相同。

此次命令同时包括了 graphcoefficient 选项。

. use "http://eml.berkeley.edu//~moretti/inmates", clear  

*省略数据处理后* 
. locmtest prison (educ = ca9 ca10 ca11)     ///
           i.rage i.year i.state i.birthpl,  ///
           graph coefficients
 

=================================================== 
Output for the Lochner & Moretti (2015) Wald Test  
=================================================== 
 
Output Variable y: prison
Endogenous Variable s: educ
Instruments z: ca9 ca10 ca11
 
Number of observations = 3209138
Number of Categories of Endogenous variable is: 19
Number of Dummies is: 18
 
The number of Excluded Instruments is: 3
 
Estimated Coefficients 
 
             |      Coef.    Std. Err.
-------------+--------------------------
         OLS |  -.00099111   .00001191
          IV |  -.00114869   .00036243
       RWOLS |  -.00120313     .000034
-------------+--------------------------
 
Estimated Test Statistics 
             |      Test     p-value
-------------+------------------------
     LM-Wald |   .02247255  .88083682
  Naive Wald |   .20211212  .65302138
    DWH Test |   .16365057  .68581755
-------------+------------------------
 
NOTES: 
 
RWOLS = Reweighted OLS using TSLS Weights 
 
LM-Wald = Lochner-Moretti Wald Test
 
Naive Wald = [ (IV-OLS) / SD(IV-OLS) ]^2 
 
DWH Test: Durbin-Wu-Hausman Test (Augmented Regression).

Estimated Coefficients: 

    |    B           seB       W2SLS     seW2sls     Wols     seWols
----+------------------------------------------------------------------
  1 | -.0004088   .0011741   .0037614   .0004353   .0072537   .0000132
  2 |  .0045219   .0012997   .0061937     .00047   .0085221   .0000143
  3 |  -.001657   .0009236     .01063   .0005368   .0109205   .0000164
  4 | -.0010993   .0007393   .0224401   .0006503   .0145451   .0000194
  5 |  .0012797   .0006386   .0393125   .0008261   .0187105   .0000225
  6 | -.0001663   .0005139   .0590797   .0010652   .0236794   .0000259
  7 |  .0000373   .0003851   .0833742   .0013781   .0316599   .0000307
  8 | -.0020164    .000276   .1191036   .0018339   .0426187   .0000363
  9 |  .0013537    .000223   .1539329   .0021541   .0668838   .0000444
 10 | -.0023834   .0002292   .1452373   .0019494   .0809498   .0000476
 11 |  -.001019   .0002225   .1335972   .0018293   .0928632   .0000511
 12 | -.0046185   .0001729    .151474   .0020407   .0986295    .000055
 13 | -.0014042   .0001508   .0016496   .0028537   .1147939   .0000602
 14 | -.0004354   .0001853   .0166923    .002551   .1120058    .000057
 15 | -.0014717   .0002178   .0173397   .0023118   .0993689   .0000538
 16 |  .0007271   .0002121   .0225779   .0020952   .0889882   .0000522
 17 | -.0003403     .00023   .0088103    .001667   .0512865   .0000451
 18 |  .0009268   .0002471   .0047934   .0014149   .0363205   .0000395
           

绘制出的图如下:

结果表明,Naive Wald 和 DWH 测试都不能拒绝 si 的外生性。 LM 检验也不能拒绝 si 的外生性,这降低了人们对前一次检验的结论是由于犯罪-教育关系中的非线性所致的担忧,但由于实例 B 得到的结果,不难发现非线性关系应该在黑人男性的情况下是很重要的。

在绘制出的图 和 Stata 输出的估计系数矩阵中对估计系数进行了描述。矩阵和图也给出了 OLS 和 2SLS 权重的估计。从图可以看出,12-16 岁受教育年限的 OLS 权重较高,而 9-12 岁受教育年限的 2SLS 权重较高。这意味着9年到12年的教育过渡对 2SLS 估计有实质性的影响。

4. 局限

正如 Lochner and Moretti (2015) 所言:

"This Wald test represents only a partial solution to the problem of estimating multiple per-unit treatment effects with limited instruments."

如果检验拒绝外部性,此检验无法为拟合正确模型提供任何帮助。

5. 参考文献

  • Michael P. Babington, Javier Cano-Urbina. A Test for Exogeneity in the Presence of Nonlinearities. Stata Journal, 2016, 16(3):761-777. -PDF-
  • Lochner, L., and E. Moretti. 2004. The effect of education on crime: Evidence from prison inmates, arrests, and self-reports. American Economic Review 94: 155–189.
  • Lochner, L., and E. Moretti. 2015. Estimating and testing models with many treatment levels and limited instruments. Review of Economics and Statistics 97: 387–397. -Link-, -PDF-

6. 相关推文

Note:产生如下推文列表的命令为:
lianxh iv 工具变量 hausman, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看

专题 嘉宾 直播/回看视频
最新专题 因果推断, 空间计量,寒暑假班等
数据清洗系列 游万海 直播, 88 元,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh