Stata:两阶段面板IV估计-xtivdfreg

发布时间:2023-05-25 阅读 480

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:梁珈源 (哈尔滨商业大学)
邮箱timljy1994@gmail.com

   

编者按:本文主要摘译自下文,特此致谢!
Source:Kripfganz S, Sarafidis V. Instrumental-variable estimation of large-T panel-data models with common factors[J]. The Stata Journal, 2021, 21(3): 659-686. -PDF-


目录


1. 背景介绍

共同因子方法在面板数据模型分析中非常受欢迎,因为它为控制遗漏变量和未观测的异质性提供了广泛的应用范围,包括具有横截面相关性的模型,具体可参考 Chudik 和 Pesaran (2015)、Juodis 和 Sarafidis (2018) 以及 Sarafidis 和 Wansbeek (2012, 2021)。

对于横截面数量和时间序列长度 (分别为 N 和 T) 都较大的面板数据,Pesaran (2006) 和 Bai (2009) 已经开发了流行的估计方法,这些方法在文献中被称为共同相关效应法 (CCE) 和迭代主成分法 (IPC)。这两种方法都涉及最小二乘法,并使用可观测值的横截面平均值或主成分分析 (PCA) 来分离共同因子。

迄今为止,CCE 和 IPC 已经应用于大量的实证研究,并已扩展到其他一些理论环境中。例如,Su 和 Jin (2012)、Moon 和 Weidner (2015, 2017)、Baltagi 等 (2021)、Harding 等 (2020)、Kapetanios 等 (2021) 以及 Li 等 (2020)。

最近,Norkute 等 (2021) 和 Cui 等 (2020) 开发了一种通用工具变量 (IV) 方法,用于在 N 和 T 均较大时,估计具有未观测共同因子的面板回归模型。其基本思想是使用主成分分析 (PCA) 将共同因子从外生协变量中分离出来,并从去因子化的协变量中构建工具变量。这与第一阶段 IV 估计的结果是一致的。而在第二阶段,整个模型基于从第一阶段残差中提取的因子进行去因子化,然后使用相同的工具变量再次做 IV 估计。

由此产生的两阶段工具变量 (2SIV) 法结合了 Pesaran (2006) 和 Bai (2009) 的特征。特别是,根据 Pesaran (2006),模型的协变量被假设为服从线性共同因子结构。然而,根据 Bai (2009) 的研究,这些共同因子是使用主成分分析法而不是横截面平均值推算出来的。2SIV 的一个主要区别在于,它分两个阶段分别从误差项和回归项中消除共同因子。相比之下,CCE 是同时消除误差项和回归变量中的因子,而 IPC 只消除了误差项中的因子。

2SIV 具有一定的优势,原因有以下几点:

  1. CCE 和 IPC 受到偶然参数偏差的影响,因为随着 T 或 N 的增长,需要估计的参数数量也在成倍增加,详情参见Westerlund 和 Urbain (2015) 以及 Juodis 等 (2021)。因此,这两种方法需要进行偏差校正,以确保估计结果是渐近有效的。相比之下,2SIV 不需要在任何维度上进行偏差校正。这个性质很重要,因为旨在使用特定估计量的极限分布的近似方法可能无法完全消除所有的偏差项,特别是那些高阶的偏差项。在这种情况下,在有限样本中可能会出现较大尺度的失真。
  2. CCE 方法需要所谓的秩条件,即假定因子的数量不超过未观测因子载荷的横截面平均值矩阵的秩。2SIV 不需要这样的条件,这是因为该方法使用 PCA 而不是横截面平均值来估计因子。
  3. 2SIV 目标函数在参数上是线性的,因此该方法具有鲁棒性且计算成本低。与之相比,IPC 依赖于非线性优化,因此可能无法保证收敛到全局最优水平 (Jiang 等)。
  4. 与 IPC 相比,2SIV 具有 CCE 的一个主要优势,因为它允许估计具有异质斜率系数的面板回归模型。
  5. SIV 允许内生回归,只要外部工具变量是可用的。

2. 模型简介

本文介绍一个新命令 xtivdfreg,它可以实现大 N 大 Y 型面板数据的两阶段工具变量 (2SIV) 估计。该命令相对以往同类型命令在两个方面进行了拓展。首先,该算法使用 Stock 和 Watson (1998) 以及 Bai 等 (2015) 提出的期望最大化方法的一个变体进行估计,因此适用于非平衡面板数据回归。其次,该算法允许灵活地指定工具变量,因此适用于以下情况:

  1. 协变量受完全不同的因子影响;
  2. 协变量具有不同数量的因子,包括没有因子;
  3. 使用去因子化协变量的不同滞后项作为工具变量。

该命令的作者还指出,当规定零因子并采用 1SIV 估计选项时,xtivdfreg 命令与 ivregress 命令的估计结果一致。从本质上讲,双向误差分量面板数据模型的两阶段最小二乘法 (2SLS) 估计可以被视为本文介绍的2SIV方法的一个特例,因为前者不对工具变量进行去因子化。值得注意的是,与 ivregress 不同,xtivdfreg 允许估计具有异质斜率系数的双向误差分量面板数据模型。

3. 命令介绍

命令安装:

ssc install xtivdfreg, replace

命令语法:

xtivdfreg depvar [indepvars] [if] [in] [, options]

对于 options,模型选项包括:

  • absorb(absvars):引入固定效应,括号内为固定效应的类别变量,如常见的 i.id 或者 i.year,具体情况可参阅 reghdfe (如果已安装)。
  • iv(varlist [,fvar(fvars) lags(#) factmax(#) [no]eigratio [no]std [no]doubledefact]):指定工具变量,且可以指定任意数量的工具变量。在同组中的变量,是被共同去因子化的,不属于回归模型的外部变量也可以作为变量的工具变量。
  • fvar(fvars):指定从 fvars 中的变量提取因子。在默认情况下,从所有的 varlist 变量中提取因子。 lags(#):指定要添加到工具变量集合的 varlist 的滞后阶数;变量的每个滞后阶,都分别用从 fvar 的相应滞后阶中提取的因子进行去因子化;默认值为滞后阶数为 (0)
  • factmax(#):指定每个估计阶段和每组工具变量的最大因子数量,默认值为 factmax(4)
  • [no]doubledefact:为实现第一阶段的估计,对整个模型实施去因子化。
  • fstage:要求计算第一阶段 IV 估计量,而非第二阶段估计量。
  • mg:要求计算允许异质斜率的均值组估计量。
  • noconstant:取消常数项。

报告选项包括:

  • level(#):设置置信水平;默认是 level(95)
  • coeflegend:显示图例而不是统计数据。
  • noheader:不显示输出标题。
  • notable:不显示系数表格。
  • display_options:控制列、列格式、行间距、线宽、省略变量、基本单元格和空单元格的显示,以及因子变量标签

最优化选项包括:

  • noeigratio:不要使用特征值比检验来确定因子的数量。
  • std:从标准化变量中提取因子。
  • iterate(#):指定最大迭代次数。
  • ltolerance(#):目标函数的容差。
  • nodots:在迭代过程中,不显示每一步的迭代结果。

4. Stata 实操

4.1 案例背景

在本例中,我们通过估计银行资本充足率的主要影响因素,来说明 xtivdfreg 命令的使用方法。我们使用 300 家美国银行随机样本的面板数据,每家银行都在 56 个时间段内观察,即 2006 年第一季度至 2019 年第四季度。设置模型如下:

其中 i=1,,300 和 t=2,,56。所有数据都是公开的,并且已从联邦存款保险公司网站下载。

  • CARit:代表资本充足率,用一级 (核心) 资本与风险加权资产的比率来表示。
  • sizeit:以银行总资产的自然对数表示。
  • ROAit:代表资产回报率,定义为年净收入占平均总资产的百分比。ROA 被用作衡量盈利能力的指标。
  • liquidityit:以存贷比来表示流动性。请注意,此变量较高时,意味着流动性水平较低。
  • uit:误差项是复合的。其中,ηi 和 τt 捕捉特定个体和特定时点的效应,fy,t 是一个 my×1 的向量,其载荷由 γy,i 决定,而 εit 是一个纯粹的误差项。

4.2 实证命令

. lxhuse xtivdfreg_example.dta, clear
. xtivdfreg L(0/1).CAR size ROA liquidity, absorb(id t) ///
>     iv(size ROA liquidity, lags(2)) factmax(3)

Defactored instrumental variables estimation
Group variable: id               Number of obs         =  16200
Time variable: t                 Number of groups      =    300
Number of instruments  =      9  Obs per group     min =     54
Number of factors in X =      1                    avg =     54
Number of factors in u =      1                    max =     54
Second-stage estimator (model with homogeneous slope coefficients)
-----------------------------------------------------------------
             |               Robust
         CAR | Coeff  std     z    P>|z|    [95% conf. interval]
-------------+---------------------------------------------------
         CAR |
         L1. | 0.373  0.032  11.85  0.000    0.311       0.435
             |
        size |-2.025  0.177 -11.44  0.000   -2.372      -1.678
         ROA | 0.200  0.030  6.77   0.000    0.142       0.258
   liquidity | 1.998  0.454  4.40   0.000    1.109       2.888
       _cons |29.994  4.128  7.27   0.000   21.902      38.085
-------------+----------------------------------------------------
     sigma_f |  2.0800886   (std. dev. of factor error component)
     sigma_e |   1.115956   (std. dev. of idiosyncratic error component)
         rho |  .77650224   (fraction of variance due to factors)
------------------------------------------------------------------
Hansen test of the overidentifying restrictions  chi2(5)     =  7.3151
H0: overidentifying restrictions are valid       Prob > chi2 =  0.1982

此处使用协变量的两阶段滞后作为去因子化的工具变量。由于协变量有 3 个,所以总共使用 9 个工具变量。模型有 4 个参数,这意味着过度识别的程度为 5。同时,Hansen 检验统计量的 p 值结果表明,模型拒绝过度识别假设,工具变量是有效的。

4.3 实证解读

在模型中,自回归系数 α 反映了阻碍银行瞬间达到最佳资本充足率水平的调整成本,而 β 是各协变量斜率系数。

  • β1 衡量银行规模对资本充足率的影响,在大而不能倒假说下,大型商业银行在面临金融困境时,认为自己将得到公共援助 (Cui 等, 2020b) ,因此会采取更加激进的经营策略。从本质上讲,这一假设反映了典型的道德风险问题,在这种情况下,β1的符号预期为负。
  • β2 衡量银行盈利能力对资本充足率的影响。这里有两种完全相反的解释。一方面,标准理论认为,银行盈利能力提高会阻止银行采取激进的经营方针。这与较大的资本储备相关,一旦盈利的银行出现下行风险,将会损失更多的股东价值 (Keeley, 1990)。另一方面,在杠杆约束的情况下,利润更高的银行可以借更多的钱,并参与更大规模的风险项目 (Martynova 等, 2020)。本文 β2 的符号与后一种解释一致。
  • β3 衡量了银行流动性对资本充足率的影响。其符号为正,表明银行流动性水平较低时会迫使银行增加资本储备,这也可以说是为了减少风险敞口。

4.4 与 ivregress 命令对比

. ivregress 2sls CAR size ROA liquidity (L.CAR = L(0/2).(size ROA liquidity))  ///
>     i.id i.t, vce(cluster id)

Instrumental variables 2SLS regression            Number of obs   =     16,200
                                                  Wald chi2(356)  =     757.55
                                                  Prob > chi2     =     0.0000
                                                  R-squared       =     0.8662
                                                  Root MSE        =     1.3718
                                   (Std. err. adjusted for 300 clusters in id)
------------------------------------------------------------------------------
             |               Robust
         CAR | Coefficient  std. err.      z    P>|z|     [95% conf. interval]
-------------+----------------------------------------------------------------
         CAR |
         L1. |      0.651      0.207     3.15   0.002        0.245       1.057
             |
        size |     -0.220      0.124    -1.77   0.077       -0.463       0.024
         ROA |      0.142      0.131     1.09   0.278       -0.114       0.398
   liquidity |      0.503      0.460     1.09   0.274       -0.399       1.405
       _cons |      5.789      3.550     1.63   0.103       -1.169      12.747
------------------------------------------------------------------------------

. xtivdfreg L(0/1).CAR size ROA liquidity, absorb(id t) iv(size ROA liquidity, ///
>     lags(2)) factmax(0) fstage

Defactored instrumental variables estimation
Group variable: id                           Number of obs         =     16200
Time variable: t                             Number of groups      =       300
Number of instruments  =      9              Obs per group     min =        54
Number of factors in X =      0                                avg =        54
                                                               max =        54
First-stage estimator (model with homogeneous slope coefficients)
------------------------------------------------------------------------------
             |               Robust
         CAR | Coefficient  std. err.      z    P>|z|     [95% conf. interval]
-------------+----------------------------------------------------------------
         CAR |
         L1. |      0.651      0.207     3.15   0.002        0.245       1.057
             |
        size |     -0.220      0.124    -1.77   0.077       -0.463       0.024
         ROA |      0.142      0.131     1.09   0.278       -0.114       0.398
   liquidity |      0.503      0.460     1.09   0.274       -0.399       1.405
       _cons |      6.065      3.587     1.69   0.091       -0.965      13.094
------------------------------------------------------------------------------
Hansen test of the overidentifying restrictions        chi2(5)     =   40.4264
H0: overidentifying restrictions are valid             Prob > chi2 =    0.0000

对比两种命令结果可知,除常数项外,各协变量斜率系数是一致的。

5. 参考文献

  1. Kripfganz, S., & Sarafidis, V. (2021). Instrumental-variable estimation of large-T panel-data models with common factors. The Stata Journal, 21(3), 659–686. -PDF-
  2. Chudik A., Pesaran M. H. 2015. Large panel data models with cross-sectional dependence: A survey. In The Oxford Handbook Of Panel Data, ed. Baltagi B. H., 3–45. Oxford: Oxford University Press.
  3. Juodis A., Sarafidis V. 2018. Fixed T dynamic panel data estimators with multifactor errors. Econometric Reviews 37: 893–929. -PDF-
  4. Sarafidis V., Wansbeek T. 2021. Celebrating 40 years of panel data analysis: Past, present and future. Journal of Econometrics 220: 215–226. -PDF-
  5. Pesaran M. H. 2006. Estimation and inference in large heterogeneous panels with a multifactor error structure. Econometrica 74: 967–1012. -PDF-
  6. Bai J. 2009. Panel data models with interactive fixed effects. Econometrica 77: 1229–1279. -PDF-
  7. Su L., Jin S. 2012. Sieve estimation of panel data models with cross section dependence. Journal of Econometrics 169: 34–47. -PDF-
  8. Moon H. R., Weidner M. 2015. Linear regression for panel with unknown number of factors as interactive fixed effects. Econometrica 83: 1543–1579. -PDF-
  9. Baltagi B. H., Ka C., Wang F. 2021. Estimating and testing high dimensional factor models with multiple structural changes. Journal of Econometrics 220: 349–365. -PDF-
  10. Harding M., Lamarche C., Pesaran M. H. 2020. Common correlated effects estimation of heterogeneous dynamic panel quantile regression models. Journal of Applied Econometrics 35: 294–314. -PDF-
  11. Kapetanios G., Serlenga L., Shin Y. 2021. Estimation and inference for multidimensional heterogeneous panel datasets with hierarchical multi-factor error structure. Journal of Econometrics 220: 504–531. -PDF-
  12. Li K., Cui G., Lu L. 2020. Efficient estimation of heterogeneous coefficients in panel data models with common shocks. Journal of Econometrics 216: 327–353. -PDF-
  13. Norkute M., Sarafidis V., Yamagata T., Cui G. 2021. Instrumental variable estimation of dynamic linear panel data models with defactored regressors and a multifactor error structure. Journal of Econometrics 220: 416–446. -PDF-
  14. Cui G., Norkuté M., Sarafidis V., Yamagata T. 2020a. Two-stage instrumental variable estimation of linear panel data models with interactive effects. ISER Discussion Paper 1101, Institute of Social and Economic Research, Osaka University. -PDF-
  15. Pesaran M. H. 2006. Estimation and inference in large heterogeneous panels with a multifactor error structure. Econometrica 74: 967–1012. -PDF-
  16. Bai J. 2009. Panel data models with interactive fixed effects. Econometrica 77: 1229–1279. -PDF-
  17. Westerlund J., Urbain J.-P. 2015. Cross-sectional averages versus principal components. Journal of Econometrics 185: 372–377. -PDF-
  18. Juodis A., Karabiyik H., Westerlund J. 2021. On the robustness of the pooled CCE estimator. Journal of Econometrics 220: 325–348. -PDF-
  19. Jiang B., Yang Y., Gao J., Hsiao C. Forthcoming. Recursive estimation in large panel data models: Theory and practice. Journal of Econometrics. -PDF-
  20. Stock J. H., Watson M. W. 1998. Diffusion indexes. NBER Working Paper No. 6702, The National Bureau of Economic Research. -PDF-
  21. Bai J., Liao Y., Yang J. 2015. Unbalanced panel data models with interactive effects. In The Oxford Handbook of Panel Data, ed. Baltagi B. H., 149–170. Oxford: Oxford University Press.

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 工具变量, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh