Stata:被忽视的严格外生性假设

发布时间:2022-09-13 阅读 165

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:窦艺 (中国人民大学)
邮箱sfrucdouyi@163.com

编者按:本文主要摘译自下文,特此致谢!
Source:Grieser W D, Hadlock C J. Panel-data estimation in finance: Testable assumptions and parameter (in) consistency[J]. Journal of Financial and Quantitative Analysis, 2019, 54(1): 1-29. -PDF-


目录


1. 问题概述

面板数据可以通过控制固定效应来控制不随时间变化的,且与解释变量相关的不可观测因素。在实证研究中,我们通常会认为控制固定效应后,外生性假设得以满足,参数估计是一致的。然而,控制固定效应满足的是同期外生性假设,严格外生性假设往往不成立。例如,当因变量对未来的自变量有影响,或者自变量和因变量部分受到共同因素的影响时,严格外生性会被打破,此时参数估计不一致。

具体地,以简单面板回归模型为例进行说明:

其中,i 表示横截面单位 (从 1 到 N),t 表示时间 (从 1 到 T)。同期外生性假设和严格外生性假设分别为:E(ϵitxit,αi)=0 和 E(ϵitxis,αi)=0

有时同期外生性假设满足,严格外生性假设不满足。例如,因变量为公司业绩,自变量为公司价值,当前公司业绩会影响未来公司价值,这时因变量直接影响未来的自变量。因变量 (公司的股票回报) 和未来的自变量 (管理所有权) 同时受到经济冲击的影响。

我们以一个简单例子来说明,在不满足严格外生性假设下,FE (固定效应模型) 和 FD (一阶差分模型) 估计的不一致性。假设 t=1,2,真正的 β 为 0,即 x 对 y 没有因果效应。但是过去的冲击对未来的 x 有正向的影响,表示为 E(ϵi1xi2αi)>0

一个数值较大的 y1 伴随着一个数值较大的 x2,因此 Δy=y2y1 与 Δx=x2x1 呈明显的负相关关系。当把 Δy=y2y1 回归到 Δx=x2x1 上时,我们会得到一个假的估计系数 β<0。考虑到这一问题对估计结果的严重影响,Wooldridge (2010) 强调在使用 FE 或 FD 进行估计之前,要检验严格外生性假设是否成立。

但是,在实际的金融研究中,这一问题并没有得到相应的重视,并且鲜少有文献去讨论是否满足严格外生性假设。Grieser 和 Hadlock (2018) 搜寻了 2006—2013 年 The Journal of Finance,The Journal of Financial Economics 和 The Review of Financial Studies 中使用固定效应的文章,排除掉使用滞后因变量的文章后,有 240 篇报告了 FE 或 FD 的估计结果,有 11 篇报告了动态面板 GMM 估计结果。其中,在 216 篇仅报告了 FE 估计结果的文章中,只有 3 篇文章提到了 “严格外生性假设”,1 篇文章测试了是否满足 “严格外生性假设”。

当严格外生性得不到满足时,解决办法是使用 GMM 或者 IV 估计量。然而,即便是使用工具变量,也应当测试其是否满足严格外生性假设。Grieser 和 Hadlock (2018) 测算后发现,在传统的 (即非 IV) 面板设置中,严格的外生性假设通常被拒绝,甚至 FE 和 FD 得到的系数是相反的,许多报告的 FE 和 FD 估计是对系数的不一致估计。

2. 严格外生性检验

2.1 Wooldridge (2010) 的方法

Wooldridge (2010) 提出两种基于回归的方式来检验严格外生性,分别为:

  • FE:yit=αi+βxit+γxi(t+1)+ϵit
  • FD:Δyit=βΔxit+ρxit+Δϵit

如果 γ0 (ρ0),那么严格外生性假定被拒绝。在有多个解释变量的情况下,可以对每个变量估计 γ 或 ρ 系数,并检验是否联合显著。

2.2 Grieser 和 Hadlock (2018) 的方法

Grieser 和 Hadlock (2018) 认为,可以通过比较 FE 和 FD 估计 (或者 IV 估计中的 FE-2SLS 和 FD-2SLS)。如果二者产生显著差异,那就可能是违反了严格外生性假设。如果确实存在较大差异,或者说,可能存在因变量与解释变量 (工具变量) 未来值之间产生相关性的机制,那么就应该进行正式的外生性检验。当然,FE 和 FD 估计是否存在差异并不是判断是否满足严格外生性假设的充要条件。

下面以 IV 估计进行举例说明。多数作者关注的是 IV 的同期外生性,而未对严格外生性进行检验。Grieser 和 Hadlock (2018) 寻找了两个最近研究常用 IV 的例子,以探讨特定研究情景下的严格外生性问题。

第一个例子 Perez-Gonzalez 和 Yun (2013)。作者了讨论了天气冲击对公司现金流的影响,验证了一个显然满足同期外生性的变量,不论是作为解释变量,还是作为工具变量,都通过了严格外生性的测试。

第二个例子 Gormley 和 Matsa (2014)。作者讨论了在使用面板数据时,利用解释变量的行业冲击作为工具变量的可行性。结果表明,一个看似满足同期外生性的变量,不论是作为解释变量,还是工具变量,都没有通过严格外生性的测试。

2.2.1 现金流、天气和投资情况

Perez-Gonzalez 和 Yun (2013) 探讨了天气冲击对公司现金流和公司防范行为的影响。由于天气冲击看起来较为外生,作者考虑了天气对现金流的直接影响,以及天气作为现金流的工具变量对资本支出的间接影响。

弱外生性 (同期外生性) 要求:

  • 天气冲击直接影响天然气和电力销售带来的当期现金流;
  • 天气冲击与任何遗漏变量不相关。

由于天气在很大程度上是不太容易预测的,因此,在控制年份和个体固定效应之后,当期的现金流 (Y) 应该不会和未来的天气 (X) 有关。这样看来,严格外生性假定似乎也能够满足。但是也可能会出现不满足这一假定的情况,比如特别冷的天气从 12 月下旬持续到 1 月,这样前一年的现金流一定程度上可以与第二年的天气相关。

为了验证这一假设,本文获取了原文的天气数据,并和电力与天然气公司的数据进行匹配。如果严格外生性假定满足,公司销售数据和天气冲击无关,或者产生反方向的变动。根据下表中 Panel A 第 1 和第 2 列的结果,不管使用 FE 还是 FD 估计,当期现金流对同期的天气高度敏感。LEAD_WEATHER 的系数很小且均不显著,表明没有办法证实当前现金流和未来天气预期有相关性。

在第 3 和第 4 列中,将资本支出做为因变量,将现金流作为自变量回归,结果发现 FE 和 FD 得到的估计量系数具有很大差异。LEAD_CASH_FLOW 系数显著为负,说明拒绝严格外生性检验。第 5 和第 6 列将天气变量作为现金流的工具变量进行回归,结果发现 FE 和 FD 估计系数十分接近,进一步为严格外生性假设提供支持。第 7 列中进一步放入 LEAD_WEATHER 变量,发现其系数较小且不显著,进一步支持了天气变量的严格外生性。

2.2.2 公司风险、行业风险和所有权

Gormley 和 Matsa (2014) 讨论了在使用面板数据时,利用解释变量的行业冲击作为工具变量的可行性。他们对这种方法提出谨慎的建议,该行业冲击对因变量必须是外生的 (即排他性)。即便研究者认为这一行业冲击是外生的,仍需要对严格外生性假定做出检验。

在公司风险对所有权影响的研究中,行业冲击捕捉了行业中潜在的外部变化,而不会对公司所有权产生影响 (即排他性假说可能成立)。因此,行业风险冲击可能是公司风险的合理 IV。本部分将对行业风险冲击的严格外生性进行检验。如果行业风险组成部分的未来变化在一定程度上是可预测的,管理者在所有权决策上便会考虑未来行业冲击,从而不满足严格外生性假定。

定义行业风险为该财政年度内每日市场调整的股票收益标准差的中位数,公司所有权是该公司所有高管持有股份的百分比之和。根据下表中 Panel B 第 1 和第 2 列的结果,不管使用 FE 还是 FD 估计,行业风险与公司风险均高度相关,且系数相差不大,表明相关性条件得到满足。

在第 3 和 4 列中,将公司所有权直接回归到企业风险中,发现 FE 和 FD 得到的估计量系数具有很大差异。LEAD_FIRM_RISK 系数显著为负,说明拒绝严格外生性检验。这说明直接将所有权回归到企业风险上是存在内生性问题的。

第 5 和第 6 列将行业风险冲击作为公司风险的工具变量进行回归,结果发现 FE 和 FD 估计系数有很大差异。如果满足严格外生性假设,两个估计量应该在大样本中收敛到相同的值。第 7 列进一步证实了这一结果,将公司管理权回归到 LEAD_INDUSTRY_RISK 变量上,系数高度显著,表明拒绝严格外生性假设。

3. 数值模拟

下面使用模拟数据展示 Grieser 和 Hadlock (2018) 提出的检验方法:如果 FE 和 FD 产生显著差异,那可能是违反了严格外生性。

其中,ϵit(IID)N(0,2)uit(IID)N(0,1)

3.1 满足严格外生性

当满足 (严格) 外生性时,θ=0 且 λ=0

. clear all
. set seed 202209
. set obs 100

. gen e=rnormal(0,2)
. gen u=rnormal(0,1)
. gen x=uniform()

. gen t=1
. gen id=_n
. gen a=uniform()
. gen y=a+2*x+e

. forvalue i=2/100{
  2.     expand 2 in -100/-1
  3.     replace t=`i' in -100/-1
  4.     replace e=rnormal(0,2) in -100/-1
  5.     replace u=rnormal(0,1) in -100/-1
  6.     replace x=0.4*a+0*y+0*e+u if t==`i'
  7.     replace y=1+2*x+e
  8. }

. * FE
. areg y x ,absorb(id)

Linear regression, absorbing indicators           Number of obs     =   10,000
Absorbed variable: id                             No. of categories =      100
                                                  F(1, 9899)        = 10028.54
                                                  Prob > F          =   0.0000
                                                  R-squared         =   0.5111
                                                  Adj R-squared     =   0.5061
                                                  Root MSE          =   1.9931
------------------------------------------------------------------------------
           y | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
           x |      2.015      0.020   100.14   0.000        1.975       2.054
       _cons |      0.989      0.020    48.44   0.000        0.949       1.029
------------------------------------------------------------------------------
F test of absorbed indicators: F(99, 9899) = 1.041            Prob > F = 0.371

. * FD
. tsset id t
. gen y_1=l.y         // 生成滞后项
. gen delta_y=y-y_1   // 生成差分
. gen x_1=l.x
. gen delta_x=x-x_1
. reg delta_y delta_x

      Source |       SS           df       MS      Number of obs   =     9,900
-------------+----------------------------------   F(1, 9898)      =  10153.64
       Model |  80855.4897         1  80855.4897   Prob > F        =    0.0000
    Residual |  78819.7978     9,898  7.96320446   R-squared       =    0.5064
-------------+----------------------------------   Adj R-squared   =    0.5063
       Total |  159675.287     9,899  16.1304463   Root MSE        =    2.8219
------------------------------------------------------------------------------
     delta_y | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
     delta_x |      2.021      0.020   100.77   0.000        1.981       2.060
       _cons |     -0.000      0.028    -0.00   1.000       -0.056       0.056
------------------------------------------------------------------------------

可以看出,真实的 β=2,FE 回归结果为 β=2.015,FD 回归结果为 β=2.021

3.2 不满足严格外生性

当不满足 (严格) 外生性时,以 θ=0.2 和 λ=0.2 为例进行说明。

. clear all
. set seed 202209
. set obs 100

. gen e=rnormal(0,2)
. gen u=rnormal(0,1)
. gen x=uniform()

. gen t=1
. gen id=_n
. gen a=uniform()
. gen y=a+2*x+e

. forvalue i=2/100{
  2.     expand 2 in -100/-1
  3.     replace t=`i' in -100/-1
  4.     replace e=rnormal(0,2) in -100/-1
  5.     replace u=rnormal(0,1) in -100/-1
  6.     replace x=0.4*a+0.2*y+0.2*e+u if t==`i'
  7.     replace y=1+2*x+e
  8. }

. * FE
. areg y x, absorb(id)

Linear regression, absorbing indicators           Number of obs     =   10,000
Absorbed variable: id                             No. of categories =      100
                                                  F(1, 9899)        = 27683.94
                                                  Prob > F          =   0.0000
                                                  R-squared         =   0.7450
                                                  Adj R-squared     =   0.7425
                                                  Root MSE          =   1.9014
------------------------------------------------------------------------------
           y | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
           x |      2.463      0.015   166.38   0.000        2.434       2.492
       _cons |      0.677      0.022    31.46   0.000        0.635       0.719
------------------------------------------------------------------------------
F test of absorbed indicators: F(99, 9899) = 0.998            Prob > F = 0.486

. * FD
. tsset id t
. gen y_1=l.y
. gen delta_y=y-y_1
. gen x_1=l.x
. gen delta_x=x-x_1
. reg delta_y delta_x

      Source |       SS           df       MS      Number of obs   =     9,900
-------------+----------------------------------   F(1, 9898)      =  11619.44
       Model |  90827.1451         1  90827.1451   Prob > F        =    0.0000
    Residual |  77370.9466     9,898  7.81682629   R-squared       =    0.5400
-------------+----------------------------------   Adj R-squared   =    0.5400
       Total |  168198.092     9,899  16.9914225   Root MSE        =    2.7959
------------------------------------------------------------------------------
     delta_y | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
     delta_x |      2.290      0.021   107.79   0.000        2.248       2.332
       _cons |     -0.001      0.028    -0.02   0.983       -0.056       0.054
------------------------------------------------------------------------------

可以看出,真实的 β=2,FE 回归结果为 β=2.463,FD 回归结果为 β=2.290。此时,FE 和 FD 数值相差比较大,因此有必要进行外生性检验。

准确来说,3.1 模拟了严格外生性和同期外生性都满足的情况,3.2 模拟了二者都不满足的情况。除此之外,还有两种情况可以模拟 (λ=0.2θ=0 和 λ=0θ=0.2) 。为节省篇幅,不再单独展示。

4. 结语

Grieser 和 Hadlock (2018) 讨论了在使用面板数据 FE 和 FD 估计以及面板数据 IV 估计时,对严格外生性假设的要求。严格外生性比常见的同期外生性具有更强的假设,它要求因变量不会影响自变量 (或 IV) 的未来值。这一假设在一定程度上是可以验证的,但是在实证金融研究中往往被忽略。作者提出以下三个建议:

  • 第一,研究人员可以比较 FE 和 FD 估计,或者在使用 IV 时比较 FE-2SLS 和 FD-2SLS 估计。如果二者产生显著差异,往往是违反了严格外生性。(当然,这并不是一个充要条件。如果二者没有差异,并不代表着一定满足严格外生性。)
  • 第二,如果比较后发现存在很大的差异,或者,可能存在某一个机制使得因变量和自变量 (或IV) 的未来值之间产生相关性,那么应该按照文中所述的类型进行正式测试。
  • 第三,在找到一个严格外生的自变量或工具变量后,应该同时估计有和没有控制变量的模型。在金融研究中,我们采用的控制变量往往不是严格外生的,加入后可能会使得所有系数估计不一致。

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 面板数据, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh