温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh
作者: 肖淇泳 (中山大学)
邮箱: xiaoqy25@mail2.sysu.edu.cn
Source: Jan Ditzen, 2018, Estimating Dynamic Common-Correlated Effects in Stata, Stata Journal, 18(3): 585–617. -PDF-
目录
传统的面板数据模型根据个体效应性质可以分为固定效应模型和随机效应模型,根据回归系数是否存在异质性而分为同质性模型和变系数模型。在构建这些面板数据模型时,一个很常见的假设便是假定截面之间是相互独立的 (徐秋华和张梓玚, 2019) 。
然而,在实际问题中,截面之间的独立性假设常常是不合理的,截面相关在面板数据中经常出现。根据 Breitung 和 Pesaran (2008) 的研究,面板数据的特征之一就是其截面之间存在不同程度的相关性,进而产生了截面异质性或回归误差项之间的相关性,从而影响标准面板数据估计量的无偏性、一致性和有效性。截面相关性问题,愈来愈成为面板数据建模中备受关注的难点问题之一。
在本篇推文中,我们首先会对截面相关及其解决方法进行简单介绍,之后重点阐述解决方法中的共同相关效应模型和动态共同相关效应模型。我们还将介绍相应的 Stata 命令 xtdcce2
, 最后给出具体的应用实例。
截面相关 (Cross-sectional Dependence) 是当前面板数据模型研究的重点,因子结构和空间相关是其中两个重要的研究方向 (钱金保, 2013) 。具体来看:
因子结构 的相关研究认为 不可观测的共同冲击或个体效应导致截面相关,主要包括共同因子和时变个体效应两种情形;
空间相关 强调 空间内的个体由于经济联系和距离的差异产生不同程度的相互影响,这种影响通过空间滞后项予以反映。
一般情形下,因子结构是截面强相关,空间相关是截面弱相关 (Pesaran and Tosetti, 2007; Sarafidis and Wansbeek, 2010) 。两种设定出发点不同,各有优劣:因子结构的优点是能够识别出导致波动的共同因子 (或时变个体效应),但不能直接获悉其背后的经济含义,也不能从中知道波动的传递途径;空间相关的优点是经济含义明确,但空间相关只能是一种随 “ 距离 ” 而衰减的相关,它不能反映共同冲击的影响。
近些年来,截面强相关研究取得许多重大突破。根据研究背景的区别,可将截面强相关归纳为两种类型:第一种类型的背景是大 N 和大 T ,相关研究考虑了共同因子及其加载系数的估计 (Bai and Ng, 2002; Bai, 2003) ,以及共同因子设定对结构性模型估计的影响 (Coakley et al., 2002; Pesaran, 2006; Kao et al., 2006; Bai, 2009) ;第二种类型的背景是大N和固定T,相关研究把普通的固定效应一般化为时变个体效应,考虑了时变个体效应下面板模型的估计问题 (Ahn et al., 2001; Han et al., 2005; Lee, 2006) 。
在下一小节中,我们将介绍截面强相关中的共同因子模型。
共同因子模型的基本建模思想是使用一个或少数几个变量 (reference variables) 捕捉大量经济变量的共同波动 (Bai and Ng, 2002) 。共同因子模型在资产定价理论、商业周期研究等领域有着广泛的应用。在这些领域中,共同因子被用于反映要素回报、共同冲击等不可观测因素 (Bai, 2003) 。
对于共同因子的研究,主要分为两类:第一类研究通常不直接估计共同因子本身,而是通过寻找代理变量,消除共同因子对估计结果的影响;第二类研究直接估计共同因子,并把它们作为回归方程的解释变量 (钱金保,2013) 。与第二类研究相比,第一类研究不需要估计共同因子,估计方法更简单,因此有着更为广泛的应用。
本篇推文所要讲述动态共同相关效应模型,就属于第一类研究,也是这个方向最为前沿的进展。在我们开始最终的屠龙之旅前,还是先看一下动态共同相关效应 (Dynamic Common Correlated Effects, DCCE) 模型的前身 —— 共同相关效应 (Common Correlated Effects, CCE) 模型。
在 Pesaran (2006) 提出大名鼎鼎的共同相关效应 (Common Correlated Effects) 估计之前,已经有一些学者针对截面相关中的共同因子展开了研究:
针对上述问题,Pesaran (2006) 利用可观测变量 (解释变量和被解释变量) 的截面均值作为不可观测因子的代理变量,通过 OLS 辅助回归得到共同相关效应估计估计。Pesaran (2006) 也推导和给出了共同相关效应估计的渐进分布,并通过模拟考虑了它们的小样本表现。
以下是具体的共同相关效应模型推导:
其中,
式 (1) 中,
为了获得对于
下面简要说明 Pesaran (2006) 的基本思路:
记
其中,
对式 (3) 取截面内平均,得到:
其中,
若
Pesaran 和 Tosetti (2007) 证明当
根据上述推导,我们可以得出共同相关效应估计量的推导方法,即将自变量和因变量的截面均值作为共同因子的代理变量代入方程,便可得到常见的面板模型形式。最后的估计方程可以表示如下:
其中,
然而,共同相关效应估计值仅在非动态面板中一致 (Chudik 和 Pesaran, 2013;Everart 和 De Groote, 2016) 。在动态面板中,模型设定如下:
滞后的因变量不再是严格的外生变量,因此估计量变得不一致。Chudik 和 Pesaran (2013) 证明,如果将横截面平均值的
式中,
根据 Chudik 和 Pesaran (2013) ,令
如果
综上,我们可以得到,为了获得动态共同相关效应 (Dynamic Common Correlated Effects) 的一致估计,我们只需要如式 (9), 将
本部分将介绍由 Jan Ditzen (2018) 编写的新的 Stata 命令 xtdcce2
,用于估计动态共同相关效应模型。本命令进行动态共同相关效应估计的方法主要遵循 Chudik 和 Pesaran (2013),此外还支持共同相关效应估计 (Pesaran, 2006)。
本命令具有广泛的适用性,支持同质系数和异质系数,并支持工具变量回归和非平衡面板。此外,xtdcce2
还会将截面相关检验结果直接显示在估计输出结果中。
xtdcce2
是外部命令,可以使用如下命令安装最新版本:
ssc install xtdcce2, replace
需要特别强调的是,在使用 xtdcce2
的过程中会调用外部命令 moremata
。因此,需要在命令窗口输入以下命令安装程序文件 moremata
:
ssc install moremata, replace
如果无法在 Stata 内部安装 moredata
,可参考连享会码云文章 moremata_install 中的方法。相关介绍参见 moremata 程序包手动安装方法。
xtdcce2
命令基本语法结构如下:
xtdcce2 depvar [indepvars] [varlist2 = varlist_iv] [if] [in] , ///
crosssectional(varlist) [ pooled(varlist) cr_lags(string) ///
nocrosssectional ivreg2options(string) e_ivreg2 ivslow ///
noisily lr(varlist) lr_options(string) pooledconstant ///
reportconstant noconstant trend pooledtrend ///
jackknife recursive exponent nocd showindividual ///
fullsample fast blockdiaguse nodimcheck useqr ///
useinvsym showomitted NOOMITted]
depvar
:必选项,为因变量;
indepvars
:可选项,为自变量;
crosssectional(varlist)
:定义作为横截面平均值添加到公式中的变量;
pooled(varlist)
:选定均匀系数;
exponent
:进行截面相关检验;
cr_lags(integers)
:制定横截面平均值的滞后数;
nocrosssectional
:防止添加横截面平均数;
reportconstant
:报告常数项,如果未指定,则将常数项作为截面平均值的一部分。
为了演示 xtdcce2
的用法,我们借助作者 Jan Ditzen (2018) 提供的数据,估计具有动态共同相关效应的拓展的索罗模型 (Augmented Solow Model) 。
经济增长一直以来都是宏观经济研究的重要论题,而经济增长的收敛性则无疑是经济增长领域最为热点的问题之一。经济增长收敛是对经济增长差距减小的形象描述,指的是一个国家或地区初期的人均产出与其经济增长速度存在负相关关系,即落后的经济体比发达的经济体有着更高的增长率。
早期经济增长收敛性研究主要集中在对于经济增长收敛性是否存在的检验上,而最早出现的经济增长收敛假说为绝对收敛假说和条件收敛假说:
绝对收敛假说: 从长期来看,无论经济体之间的初始条件和经济结构如何,不同经济体的人均产出路径将收敛于相同的均衡稳态水平。表现形式为,初始人均产出水平较低的经济体具有较快的增长速度,初始人均产出水平较高的经济体增长速度却相对较慢。
条件收敛假说: 条件收敛则考虑到不同经济体之间的差异性,提出如果不同经济体之间在市场和体制政策等方面具有类似的结构特征,则无论初始条件如何,长期内不同经济体的人均产出路径将收敛于相同的均衡稳态水平。这种情况下不同经济体的人均产出差异仍然长期存在。
通过数学表达式,我们可以将绝对收敛假说表示为:
其中,
而对于条件收敛假说,则只需要在上式中加入控制变量,即为:
其中,
Barro 等 (1992) , Islam (1995) 和 Lee 等 (1997) 采用拓展的索罗增长模型,将人均 GDP 的差分项对人均 GDP 的滞后项、人力资本、物质资本和人口增长率进行回归,对条件收敛假说进行检验。
我们在这些学者的基础上,使用由 xtdcce2
命令编写者 Jan Ditzen 提供的数据,对条件收敛假说进行检验。我们使用的数据来自佩恩表 (PWT) , 这是由美国宾夕法尼亚大学生产/收入/价格国际比较研究中心编制的 188 个国家的购买力平价 GDP 比较数据。具体数据可以从下述网站中获取:
*- 数据存放地址:
*- https://gitee.com/arlionn/data/blob/master/data01/aging_growth_data.dta
*- Note: 进入网页后,请不要直接点击下载,而是右击【下载(95.49 KB)】→【链接另存为……】。
我们使用的数据集具体包含 93 个国家 (N=93) 从 1960 年到 2007 年 (T=48) 的年度数据。数据共包括六个变量,其中 id 和 year 分别表示样本国家的代码 (截面变量) 和观察的年份 (时间变量);log_rgdpo 表示实际 GDP ;log_hc 表示人力资本;log_ck 表示物质资本;log_ngd 表示人口增长率。
· use xtdcce2data.dta
. sum
Variable | Obs Mean Std. Dev. Min Max
-------------+---------------------------------------------------------
id | 4,464 47 26.84824 1 93
year | 4,464 1983.5 13.85495 1960 2007
log_rgdpo | 4,464 8.417596 1.22088 5.09353 10.99178
log_hc | 4,464 .6768531 .3095766 .0179907 1.278799
log_ck | 4,464 11.21916 2.243923 6.266755 17.54079
log_ngd | 4,371 -2.690039 .1669866 -4.210328 -1.696337
log_rgdpo
:实际人均 GDP
log_hc
:人力资本
log_ck
:物质资本
log_ngd
:人口增长率
在开始估计前需要先设置面板数据:
. xtset id year
panel variable: id (strongly balanced)
time variable: year, 1960 to 2007
delta: 1 unit
根据 Barro 等 (1992) , Islam (1995) 和 Lee 等 (1997) ,我们采用拓展的索罗增长模型设定如下:
我们将人均 GDP 的差分项对人均 GDP 的滞后项、人力资本、物质资本和人口增长率进行回归,对条件收敛假说进行检验。在式 (11) 中,如果
然而,在实际情况中,可能存在由于不可观测的共同冲击而带来的截面相关问题,从而无法得到对于
我们将不可观测的共同因子
我们可以看到,这是一个动态共同相关效应模型。我们根据面板数据的时间长度取
这即为我们最终用来估计的模型。
接下来,我们进行动态共同相关效应估计,通过 crossectional()
将因变量和四个自变量作为截面平均值。此外,我们还需要通过 cr_lags()
设定横截面平均值的滞后数。
实际应用中,我们根据面板数据的时间长度取
命令及输出结果如下:
. xtdcce2 d.log_rgdpo L.log_rgdpo log_hc log_ck log_ngd , reportconstant crosssectional(d.log_rgdpo L.log_rgdpo log_hc log_ck log_ngd) cr_lags(3)
(Dynamic) Common Correlated Effects Estimator - Mean Group
Panel Variable (i): id Number of obs = 4092
Time Variable (t): year Number of groups = 93
Degrees of freedom per group: Obs per group (T) = 44
without cross-sectional averages = 39
with cross-sectional averages = 19
Number of F(2325, 1767) = 0.81
cross-sectional lags = 3 Prob > F = 1.00
variables in mean group regression = 465 R-squared = 0.48
variables partialled out = 1860 R-squared (MG) = 0.44
Root MSE = 0.06
CD Statistic = 1.37
p-value = 0.1716
-------------------------------------------------------------------------------
D.log_rgdpo| Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------------+---------------------------------------------------------------
Mean Group: |
L.log_rgdpo| -.6366608 .0303968 -20.94 0.000 -.6962375 -.5770841
log_hc| -1.308897 .3965706 -3.30 0.001 -2.086161 -.5316326
log_ck| .2209471 .051488 4.29 0.000 .1200325 .3218616
log_ngd| .0412863 .1055255 0.39 0.696 -.1655399 .2481125
_cons| -1.873393 1.834748 -1.02 0.307 -5.469432 1.722646
-------------------------------------------------------------------------------
Mean Group Variables: L.log_rgdpo log_hc log_ck log_ngd _cons
Cross-sectional Averaged Variables: D.log_rgdpo L.log_rgdpo log_hc log_ck log_ngd
上述模型中的
在 xtdcce2
命令中,同时也包含了用于检验截面相关的 CD 检验,并在输出结果中进行展示。
CD 检验的原假设是 “截面之间相互独立”,用数学形式表达即为:
其中的
CD 检验统计量则为:
在原假设下,CD 检验统计量渐进分布于:
在 4.4 节的输出结果中,我们可以看到,该模型的 CD 检验统计量等于 1.37 ,p 值为 0.1716 ,我们不能拒绝截面独立的原假设。
物质资本和人均 GDP 互相影响,人均 GDP 更高的经济体可能会有更多的储蓄和投资,从而带来更多的物质资本,而物质资本则能带来更高的人均 GDP 。这种反向因果关系会导致严重的内生性问题。Temple (1999) 提出,将物质资本作为内生变量,并将物质资本的一阶滞后项作为物质资本的工具变量。
xtdcce2
同样支持使用工具变量,具体命令及输出结果如下:
. xtdcce2 d.log_rgdpo L.log_rgdpo log_hc log_ck log_ngd (log_ck = L.log_ck), reportconstant crosssectional(d.log_rgdpo L.log_rgdpo log_hc log_ck log_ngd) cr_lags(3) ivreg2options(nocollin noid)
(Dynamic) Common Correlated Effects Estimator - Mean Group IV
Panel Variable (i): id Number of obs = 4092
Time Variable (t): year Number of groups = 93
Degrees of freedom per group: Obs per group (T) = 44
without cross-sectional averages = 37
with cross-sectional averages = 17
Number of F(2325, 1767) = 3.55
cross-sectional lags = 3 Prob > F = 0.00
variables in mean group regression = 465 R-squared = 0.48
variables partialled out = 1860 R-squared (MG) = 0.38
Root MSE = 0.04
CD Statistic = 1.16
p-value = 0.2474
-------------------------------------------------------------------------------
D.log_rgdpo| Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------------+---------------------------------------------------------------
Mean Group: |
log_ck| -.0854057 .0733808 -1.16 0.244 -.2292295 .0584181
L.log_rgdpo| -.5575576 .0341257 -16.34 0.000 -.6244427 -.4906724
log_hc| -1.048774 .4032927 -2.60 0.009 -1.839213 -.2583344
log_ck| -.0854057 .0733808 -1.16 0.244 -.2292295 .0584181
log_ngd| .1271361 .1672222 0.76 0.447 -.2006135 .4548857
_cons| -1.513816 1.923117 -0.79 0.431 -5.283056 2.255424
-------------------------------------------------------------------------------
Mean Group Variables: L.log_rgdpo log_hc log_ck log_ngd _cons
Cross-sectional Averaged Variables: D.log_rgdpo L.log_rgdpo log_hc log_ck log_ng
> d
Endogenous Variables: log_ck
Exogenous Variables: L.log_ck
在将对于物质资本的投资作为内生变量后,我们对于
xtdcce2
命令同样支持非平衡面板,我们将上述所用数据删除一部分使之成为非平衡面板数据后,仍然可以使用上述命令进行估计,具体如下:
-* 删除部分数据
. drop if id==3 & year==1978
. drop if id==6 & year==1979
. drop if id==5 & year==1980
. drop if id==4 & year==1981
-* 检验非平衡面板
. xtset id year
panel variable: id (unbalanced)
time variable: year, 1960 to 2007, but with gaps
delta: 1 unit
-* 进行动态共同相关效应估计
. xtdcce2 d.log_rgdpo L.log_rgdpo log_hc log_ck log_ngd , reportconstant crosssectional(d.log_rgdpo L.log_rgdpo log_hc log_ck log_ngd) cr_lags(3)
(Dynamic) Common Correlated Effects Estimator - Mean Group
Panel Variable (i): id Number of obs = 4072
Time Variable (t): year Number of groups = 93
Degrees of freedom per group: Obs per group:
without cross-sectional avg. min = 34 min = 39
max = 39 avg = 44
with cross-sectional avg. min = 14 max = 44
max = 19
Number of F(2325, 1747) = 0.88
cross-sectional lags = 3 Prob > F = 1.00
variables in mean group regression = 465 R-squared = 0.46
variables partialled out = 1860 R-squared (MG) = 0.51
Root MSE = 0.05
CD Statistic = 2.54
p-value = 0.0111
-------------------------------------------------------------------------------
D.log_rgdpo| Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------------+---------------------------------------------------------------
Mean Group: |
L.log_rgdpo| -.6129414 .0325741 -18.82 0.000 -.6767854 -.5490973
log_hc| -1.381152 .472712 -2.92 0.003 -2.30765 -.4546531
log_ck| .2462558 .056691 4.34 0.000 .1351435 .357368
log_ngd| .0490846 .1181023 0.42 0.678 -.1823917 .2805609
_cons| -2.852124 2.186553 -1.30 0.192 -7.137689 1.433441
-------------------------------------------------------------------------------
Mean Group Variables: L.log_rgdpo log_hc log_ck log_ngd _cons
Cross-sectional Averaged Variables: D.log_rgdpo L.log_rgdpo log_hc log_ck log_ngd
在推文最后,我们回顾一下文章的主要内容:我们简单了解了什么是截面相关、截面相关的表现有什么,介绍了截面相关中的共同因子模型及其对应的共同相关效应及动态共同相关效应模型。我们可以看到,随着时代的发展,可用来研究的经济数据越来越多,对于大 N 大 T 型面板数据模型的研究日渐成为主流,动态共同相关效应模型施展拳脚的空间也将越来越大。
xtdcce2
:Jan Ditzen. Estimating Dynamic Common-Correlated Effects in Stata[J]. Stata Journal, 2018, 18(3): 585–617. -PDF-xtdcce2
命令语法和功能处于持续更新状态中,如果要使用 xtdcce2
, 请认真查阅最新版的 help 文档。Note:产生如下推文列表的命令为:
lianxh 面板数据
安装最新版lianxh
命令:
ssc install lianxh, replace
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟,课程主页 Stata 33 讲 - 连玉君, 每讲 15 分钟. Stata 小白的取经之路 - 龙志能,时长:2 小时,课程主页 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会学习群-常见问题解答汇总:
✨ https://gitee.com/arlionn/WD
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh