xtusreg:时间间隔不等情况下的动态面板估计

发布时间:2023-01-11 阅读 444

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者: 刘川钰 (中山大学)
E-mail: liuchy85@mail2.sysu.edu.cn

备注: 本推文部分摘译自以下论文,特此致谢!
Source: Sasaki, Y., Y. Xin, 2022, xtusreg: Software for dynamic panel regression under irregular time spacing, The Stata Journal, 22 (3): 713-724. -PDF-


目录


1. 背景介绍

估计固定效应动态面板回归模型的传统命令 xtabond 要求模型的时间间隔必须是三个连续的时间段两对两个连续的时间段。但是现实研究中有许多数据的观测都不满足上述要求,所以我们需要借助不规则时间间隔的面板数据估计方法来实现更多动态面板回归模型的参数估计。

本推文将要介绍的新命令 xtusreg 就是基于时间间隔不相等的面板数据对其固定效应模型进行回归参数的估计,为了对此命令的应用场景有更清晰的认识,下面对命令涉及的一些背景知识进行介绍:

1.1 不等时间间隔

例如,现在有这样一份数据,显示有学者分别在1966年、1967年、1969年、1971年、1976年、1981年和1990年对 National Longitudinal Survey Original Cohorts Older Men 成员进行了个人访谈,并收集了他们的收入、年龄、受教育年限和是否为白种人等信息。这个例子的年份列表中既没有三个连续的时间段,也没有两对两个连续的时间段。这个调查的年份数据出现了时间间隔不等的情况,我们无法用传统的方法 xtabond 对其回归模型进行估计。

Sasaki & Xin (2017) 的研究表明,即使面板数据表现出不规则、不相等的时间间隔,只要数据存在两对两个连续的时间间隔,那么仍然可以估计出固定效应的动态面板回归模型的参数,这是对传统的两对两个连续的时间段要求的放松及扩展。

1.2 实例说明

在 National Longitudinal Survey Original Cohorts Older Men 的例子中,1966年与1966年的时间差为0,1966年与1967年的时间差为1,1967年与1969年的时间差为2,1966年与1969年的时间差为3。因此,在这个面板数据集中有两对连续的时间间隔:{0,1}和{2,3},可以通过 xtusreg 命令实现参数估计。

2. xtusreg命令介绍

2.1 理论介绍

我们考虑如下模型:

其中,yit 和 xit 分别为被解释变量和解释变量,αi 表示个体固定效应,εit 为随机干扰项。我们重点关注系数 β 和 γ。 Sasaki & Xin (2017) 的研究提出了时间间隔不等情况下的阐述估计方法,具体讨论可分为以下步骤:

Step 1:定义辅助随机变量

我们将个体 i 的特定的固定效应 αi 的期望 E(αi) 简记为 Ei() ,即 Ei():=E(αi)。 然后我们对于任意的时间 t 和 时间间隔 τ ,定义如下辅助随机变量:

Step 2:定义时间差距的集合

设T是研究人员观察面板数据 {(yit,xit)}i=1N的时间间隔不等的时间段集 T。 通过以下方法定义调查时间差距的集合:

以及与时间差距相关的调查年的集合:

其中任意时间间隔 τT,并且令T(τ)= ,如果 τT

Step 3:基于时间间距结构US spacing的讨论

对于某个时间间隔不相等的面板数据,如果对于自然数集合中的某个间隙 ΔT 满足 T(1),T(Δt) 以及 T(Δt+1),则 Sasaki & Xin (2017) 称其间距结构为 "US spacing"。

在 "US spacing" 间距结构下,(γ,β) 可以被定义为:

其中,|Δ|:=(ZΔtZ0)(zΔt+1z1)(ζΔtζ0)(ζΔt+1ζ1),同时,假设 |Δ|0 成立。

Step 4:估计辅助随机变量

给定识别结果后,取对应样本来获得估计量。首先对于辅助随便变量可以通过以下方法进行估计:

在时不变矩假设下,Z¯iτ,z¯iτ,ζ¯iτ 和 ζ¯i,τ 可由以下形式表示:

其中,aτ=(atτ)tT(τ),bτ=(btτ)tT(τ),cτ=(ctτ)tT(τ) 和 dτ=(dtτ)tT(τ) 满足 tT(τ)atτ=1,tT(τ)btτ=1,tT(τ)ctτ=1 和 tT(τ)dtτ=1条件。

xtusreg 命令使用简单的算术平均数来识别公式的对应样本产生显式估计量

其中,|Δ^|=(Z^ΔtZ^0)(z^Δt+1z^1)(ζ^(Δt)ζ^0)(ζ^Δt+1ζ^1)

Step 5:估计参数θ

以上的过程只关注恰好识别的情况,但通用的GMM满足以下条件:

其中,θ=(γ,β)wi=(xit,yit)tT,距函数 g=(wi,θ)的行包括:

其中,(t,t,t,t)T(0)×T(1)×T(Δt)×T(Δt+1)

xtusreg 命令可以基于这些矩条件限制实现GMM,因此它可以处理恰好识别过度识别的情况。具体的估计方法如下:

其中,WN 是一个权重矩阵。xtusreg 命令在第一阶段使用单位矩阵,在第二阶段中使用估计的最优权重矩阵。在恰好识别的情况下,GMM估计量与方程(3)表示的显示估计量一致。

即使使用了GMM的理论框架,我们也要强调,为了命令的运行,面板数据的数据结构依然需要是"US间距"。

基于渐近正态性计算GMM估计量的方差矩阵:

这里,S 是 g=(wi,θ) 的方差矩阵,而 G 可写成以下形式:

本文介绍的 xtusreg 命令并不使用两对连续时间间隔的所有组合。相反,我们使用两对最小的两个连续时间间隔。因为,在实践中较大的时间间隔往往导致有限样本的较大偏差。

2.2 语法结构

xtusreg 是 Sasaki & Xin (2017) 根据以上估计方法所编写的 Stata 新命令。 xtusreg 是一个 eclass 的命令,可以通过以下方法下载:

. ssc install xtusreg, replace 
* 或通过 Stata Journal 下载
. net install st0690.pkg, replace 

xtusreg语法结构如下:

xtusreg depvar [indepvars] [if ] [in] ///
        [, onestep stationary sweight(var) gamma(real) beta(real)]
  • depvar:被解释变量;
  • indepvars:进入回归模型的解释变量;
  • onestep:设置一阶段GMM估计的指标。默认情况下,不调用此选项将导致两阶段有效的GMM估计。如果参数是恰好识别的,此选项不会对结果产生影响;
  • stationary:设置不执行变量位置-规模标准化的指标。默认情况下,不调用此选项将导致位置-规模标准化;
  • sweight(var):设置采样权重。默认情况下,所有观察值权重一样;
  • gamma(real):设置GMM估计中数值优化的自回归系数的初始值。默认情况下,初始值为gamma(0)
  • beta(real):设置GMM估计中数值优化的回归系数的初始值。默认情况下,初始值为beta(0)

详情请参考 help xtusreg

3. Stata实例

下面我们用NLS Original Cohorts Older Men的真实数据来检验此命令。这是一个 Stata 官方在介绍 xtusreg 命令时所使用的数据集。

*-下载数据和范例 dofiles 到当前工作路径下
. net get st0690.pkg 

copying into current directory...
      copying  example_real_data.do
      copying  monte_carlo_simulations_no_x_pattern1.do
      copying  monte_carlo_simulations_no_x_pattern2.do
      copying  monte_carlo_simulations_no_x_pattern3.do
      copying  monte_carlo_simulations_with_x_pattern1.do
      copying  monte_carlo_simulations_with_x_pattern2.do
      copying  monte_carlo_simulations_with_x_pattern3.do
      copying  nls_original_cohort.dta
ancillary files successfully copied.

接下来,我们使用作者提供的范例数据展示该命令的具体用法。

. use "nls_original_cohort.dta", clear 
/* Notes:
数据中每一个个体为一名男性,包括了其被采访时间,年龄,收入的对数,受教育年限,是否为白种人等信息。
    year:被采访的年份
    logincome:收入的对数
    age:年龄
    edu:受教育年限
    white:是否为白种人
*/

我们先分别通过 idyear 作为个体和时间的指标设置了面板数据结构:

. xtset id year 
Panel variable: id (strongly balanced)
 Time variable: year, 65 to 68, but with gaps
         Delta: 1 unit

设置完面板数据结构后,我们首先对 y=logincome 进行简单的自回归:

. xtusreg logincome 

--------------------------------
GMM Estimation
--------------------------------
Iteration 0:   f(p) =   .0144283  
Iteration 1:   f(p) =  2.862e-19  
Iteration 2:   f(p) =  2.375e-29  

Balanced Portion of Panel Data
-----------------------------------------------------
Number of observations:          8994 
Number of cross-section units:   2998 
Number of time periods:          3 
List of time periods:            65, 66, 68
-----------------------------------------------------
L1 = Autoregressive Coefficient (gamma)
-----------------------------------------------------
   | Coeff    S.E   z    P>|z|   [95% conf. interval]
---+-------------------------------------------------
L1 | 0.478  0.103  4.64  0.000      0.276       0.679
-----------------------------------------------------

由上述的回归结果,我们可以发现自回归参数 γ 的估计值是显著为正的,这表明收入的对数是正自相关的,并且遵循一个平稳过程。 接着我们将 age 作为控制变量 x 加入回归方程:

. xtusreg logincome age

--------------------------------
GMM Estimation
--------------------------------
... ...

Balanced Portion of Panel Data
------------------------------------------------------
Number of observations:          8994 
Number of cross-section units:   2998 
Number of time periods:          3 
List of time periods:            65, 66, 68
------------------------------------------------------
L1 = Autoregressive Coefficient (gamma)
------------------------------------------------------
    |  Coeff    S.E    z   P>|z|  [95% conf. interval]
----+-------------------------------------------------
 L1 |  0.463  0.101  4.56  0.000     0.264       0.662
age | -0.000  0.000 -0.28  0.781    -0.000       0.000
------------------------------------------------------

上表的回归结果显示,控制因素 x 的加入对自回归参数 γ 的点估计有影响,但统计显著性较没加入之前有提高,且 age 的系数 β 也显著。

除此之外,eduwhite 也属于控制变量 x 的范畴,但这两个变量通常不随时间而改变,无法将其纳入控制变量中进行回归分析。故为了观察到人种的异质性,我们可以对每个种类进行分组回归:

xtusreg logincome if !white
est store NonWhite

xtusreg logincome if white
est store White

同理,也可以针对教育水平 (educ) 进行分组回归:

xtusreg logincome if edu <12
est store eduLess12

xtusreg logincome if edu >=12
est store eduG12

上述估计结果汇总如下:

*-----结果-------
  local m "NonWhite White eduLess12 eduG12"
  esttab `m', mtitle(`m') nogap compress   ///
         b(%6.3f) s(NT N T) sfmt(%5.0f)    ///
         star(* 0.1 ** 0.05 *** 0.01) 

--------------------------------------------------------------
                 (1)          (2)          (3)          (4)   
            NonWhite        White    eduLess12       eduG12   
--------------------------------------------------------------
L1             0.260**      0.632***     0.402***     0.737***
              (2.03)       (4.37)       (3.85)       (3.22)   
--------------------------------------------------------------
NT          2853.000     6141.000     5766.000     3228.000   
N            951.000     2047.000     1922.000     1076.000   
T              3.000        3.000        3.000        3.000   
--------------------------------------------------------------
t statistics in parentheses
*** 1% ** 5% * 10%

由分组回归的结果可以发现,那些具有12年或以上受教育经历的个体的自回归参数 γ 更大,这意味着 logincome 对受教育年限更高的人群更持久。

由此,新命令 xtusreg 可以帮助研究人员使用时间间隔不相等的动态面板数据进行研究。

4. 结语

估计固定效应动态面板回归模型的传统方法需要对三个连续的时间段两对两个连续的时间段进行观测。但实际研究中,通常观测值之间的时间间隔并不相等,而在本文中,我们介绍的 xtusreg 命令正是解决这类情况的估计方法。Sasaki & Xin (2017) 将观测时间的要求拓展为两对两个连续的时间间隔。通过 xtusreg 命令,我们可以实现在时间间隔不等情况下执行固定效应动态面板回归的估计和推断。但是当前 xtusreg 只适用于面板数据中时间间隔不等的特定形式,即"US spacing"。

5. 参考资料

  • Sasaki, Y., Y. Xin, 2022, xtusreg: Software for dynamic panel regression under irregular time spacing, The Stata Journal, 22 (3): 713-724. -PDF-
  • Sasaki, Y. and Y. Xin (2017) Unequal Spacing in Dynamic Panel Data: Identification and Estimation. Journal of Econometrics, 196 (2), pp. 320-330. -PDF-
  • 姚旭生,连享会推文,动态面板数据模型与xtabond2应用

附:本文使用的 dofile

/*
  net install st0690.pkg 
  net get st0690.pkg
*/
 
use "nls_original_cohort.dta", clear
xtset id year

xtusreg logincome 

xtusreg logincome age

xtusreg logincome if !white
est store NonWhite
xtusreg logincome if white
est store White

xtusreg logincome if edu <12
est store eduLess12
xtusreg logincome if edu >=12
est store eduG12

*-----结果-------
  local m "NonWhite White eduLess12 eduG12"
  esttab `m', mtitle(`m') nogap compress   ///
         b(%6.3f) s(NT N T) sfmt(%5.0f)    ///
         star(* 0.1 ** 0.05 *** 0.01)   

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh