Stata:动态面板数据模型OLS估计的偏差

发布时间:2021-01-28 阅读 6540

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者:陈汉青 (中山大学)
邮箱chenhq25@mail2.sysu.edu.cn


目录


1. 简介

动态面板模型,简而言之,就是解释变量中包含了被解释变量滞后项的模型。从计量上来看,在普通的 OLS 模型中,加入被解释变量的滞后项 (lagged dependent variable, LDV) 的目的又是什么?

实际上,当出现扰动项自相关,或者研究者想控制一些未设定的自相关误差时,滞后被解释变量就被当做一种完全合理的纠正方法。关于是否将被解释变量的滞后项放入模型,学界也一直存在争议:

  • Achen (2000) 指出使用含有 LDV 的 OLS 估计是有偏的,会低估真实的参数值。自此学界对滞后被解释变量的使用变得非常慎重;
  • Keele 和 Kelly (2006) 采用蒙特卡洛模拟分析了含有一阶滞后被解释变量的 OLS 模型的估计效果,发现带有 LDV 的 OLS 估计效果好于常见的其它模型;
  • Wilskin (2018) 反驳了 Achen (2000) 的观点,认为应该尽可能地在模型中加入解释变量和被解释变量的滞后项,他建立出一个新的、估计效果更好的模型,并总结出一套设定模型的方法。

接下来,本文将简要介绍上述学者的观点和建议。

2. 学者观点

2.1 Achen (2000)

Achen (2000) 认为加入被解释变量滞后,若违背了 IID 假设,就会产生估计偏误,因此应该拒绝使用 LDV。

2.2 Keele 和 Kelly (2006)

Keele 和 Kelly (2006) 通过将含有被解释变量一阶滞后的模型 (LDV 模型) 与其它模型 (GLS、ARMA、OLS、以及 2LDV) 对比,得出了 LDV 模型的适用情形。

具体来看,考虑如下模型:

若 α=0,即模型中不存在滞后项,此时加入滞后被解释变量就会导致模型设定错误,产生有偏的估计值。若 α0,即模型是动态过程,此时就应该包括滞后被解释变量,否则就会产生遗漏变量问题。

Kelee 和 Kelly (2006) 针对是否使用 LDV 提出了以下建议:

  • 如果怀疑模型存在动态性,就应慎重使用 GLS 或者纠正标准误的 OLS 。因为此时不加 LDV,相当于遗漏变量,即使是弱动态过程 (α 很小),也会导致有偏估计;
  • 如果怀疑一个过程是共同因子 (common factor),此时应当使用自回归移动平均模型 (ARMA)。因为当数据生成过程具有弱动态性时,只有 ARMA 的表现是稳健的,其它模型的估计效果都很差;
  • 最后,在使用带有滞后被解释变量 LDV 的 OLS 估计之前,研究者必须先检验被解释变量是否是平稳的 (|α+ϕ|<1)。LDV 引起的很多问题很有可能是因为数据是非平稳的。如果数据是非平稳的,带有 LDV 的 OLS 估计显然是不正确的,应该先进行协整。无论 LDV 的优势多强,它都不适用于未经差分的非平稳数据。
  • 一个待回答的问题是,怎样区分共同因子和动态环境呢?答案是不确定的,因为没有一个简单的检验可以区别数据是有一个共同因子还是动态过程。这实际上是一个理论问题,过去是否会影响被研究过程的当期值?如果答案是肯定的,只要满足平稳性条件、模型残差不是高度自相关,带有 LDV 的 OLS 就是合适的。

2.3 Wilskin (2018)

Wilkins (2018) 则认为 Achen (2000)、Keele 和 Kelly (2006) 都没有正确地设定模型。具体来看,Wilkins (2018) 设定的模型如下:

该模型是自回归分布滞后模型(Autoregressive Distributed Lag,ADL)的一个特殊形式。Wilkins (2018) 对上述模型进行了蒙特卡洛模拟,发现此模型的表现好于不含 LDV 的 OLS 模型、含有一阶 LDV 的 OLS 模型以及含有二阶 LDV 的 OLS 模型。上述结论从弱动态过程到强动态过程、从残差轻微自相关到高度自相关,都是成立的。条件是 Xt 和 Yt 都是平稳过程,即满足如下条件:

但是该模型也有一个缺陷,在有限时样本下 (T很小),存在估计偏误,但随着 T 增大这种偏误很快就趋于零了。

Wilkins (2018) 提出,模型设定的程序应该是从 ADL(1, 1) 模型开始,检验残差是否自相关,然后添加滞后被解释变量,直到残差自相关被清除。蒙特卡洛分析的结果也显示,这种模型设定方法能够得到对 β 的准确的估计,而凭空添加限制条件则会导致很大的偏差。

在使用蒙特卡洛模拟了有限时间 T 下的估计量表现后,Wilkins (2018) 使用公式推导了当 T 趋近于无穷大时,模型的渐近性质以及 Xt 对 Y 的长期效果。

ADL(2, 1) 模型中正确的长期效果表达式应为:

Xt 对 Y 的长期效果应为:

前人的很多文献都漏掉了分母中的 (1ρ)。Wilkins (2018) 认为,与前面模型设定的思想保持一致,研究者在计算 Xt 对 Y 的长期效果之前也要先检验 Xt 的时间序列结构。如果 Xt 不是一个 AR(1) 的过程,那么 ADL(2,1) 的长期效果表达式也不会如前文所示。作者接下来又针对长期效果的估计进行了蒙特卡洛模拟,结果显示其设定的模型仍然是表现最好的模型。但即使是表现最好的模型,当 ρ 偏高时,样本数量为 100,Hurwicz 偏误也会导致 Xt 对 Y 长期效果的大量低估。

尽管 ADL(1, 1) 和作者设定的模型在估计 Xt 对 Yt 的即期效果 β 上区别不大,但在估计 Xt 对 Y 的长期效果时区别非常大,因此在估计长期效果时,研究者应同时汇报 ADL(1, 1) 和 ADL (2, 1) 的结果以便读者比较。

Wilkins (2018) 的操作建议:

  • 在设定模型时,应该从最具有一般性的模型开始,然后每次添加限制条件都需要验证。这种方法有助于避免模型设定错误问题,而一开始就从一个限制非常多的模型入手,容易出现模型设定错误;
  • 研究者必须注意检验所使用的时间序列数据是否是平稳的。在模型中加入被解释变量的滞后项有助于纠正残差的自相关。如果对是否存在残差自相关很难判断,研究者应该在结果中同时呈现加入高阶滞后项和不加入高阶滞后项的模型估计结果,因为蒙特卡洛模拟显示,不同的模型中被解释变量的长期效果的计算值区别非常大;
  • 关于时间序列平稳性的条件,AR(2) 模型和更高阶自回归过程的平稳性条件远比 AR (1) 模型的平稳性条件要复杂;
  • 计算被解释变量的长期效果是时间序列模型研究的另一个兴趣点,但也伴随着很多缺陷。精准地计算被解释变量的长期效果需要仔细考虑该变量的时间序列结构。而最常用的计算公式是建立在被解释变量自身并不是动态过程的假设之上的。有时可能的确是这样,但是如前文所述,就相当于在被解释变量的数据生成过程中引入限制条件,但限制条件必须经过检验而不仅仅是假设。仅仅是假设被解释变量并不是动态过程,是不正确的,可能会导致低估被解释变量的长期效果。

3. 参考资料

  • Achen C H. Why lagged dependent variables can suppress the explanatory power of other independent variables[C]//annual meeting of the political methodology section of the American political science association, UCLA. 2000, 20(22): 07.2000. -PDF-
  • Keele L, Kelly N J. Dynamic models for dynamic theories: The ins and outs of lagged dependent variables[J]. Political analysis, 2006: 186-205. -PDF-
  • Wilkins A S. To lag or not to lag?: Re-evaluating the use of lagged dependent variables in regression analysis[J]. Political Science Research and Methods, 2018, 6(2): 393. -PDF-

4. 相关推文

Note:产生如下推文列表的命令为:
lianxh 动态面板 GMM 滞后项 时间序列, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看

专题 嘉宾 直播/回看视频
最新专题 因果推断, 空间计量,寒暑假班等
数据清洗系列 游万海 直播, 88 元,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh