Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者: 左志勇(中山大学)
E-mail: zuozhy6@mail2.sysu.edu.cn
编者按:本文部分摘译自下文,特此致谢!
Source:
Correia S, Guimarães P, Zylkin T. Fast Poisson estimation with high-dimensional fixed effects[J]. The Stata Journal, 2020, 20(1): 95-115. -PDF- Sul D. Panel Data Econometrics: Common Factor Analysis for Empirical Researchers[M]. 2019.
目录
引力模型的思想和概念源自经典物理学中的万有引力定律:
式中
最早将引力模型用于研究国际贸易的是 Tinbergen(1962) 和 Poyhonen(1963) ,他们分别独立使用引力模型研究分析了双边贸易流量,并得出了相同的结果:两国双边贸易规模与他们的经济总量成正比,与两国之间的距离成反比,其中 Tinbergen(1962) 列出的引力模型标准式为:
其中
相比于国际贸易理论中经典的Heckscher-Ohlin模型,引力模型在形式上更接近一个多因素模型,我们不妨写出引力模型的面板形式:
式中
基于
该模型也被用于解释国际贸易以外的问题,如分析城市之间的贸易流量、区域之间的交通流量与人口迁移流量等。
进一步地,如果我们认为
即
直观上理解,我们以
考虑到
被解释变量存在着分布离散的特征,与一般OLS回归形式依赖样本服从正态分布的假设不同,这可能会造成较严重的异方差问题从而导致参数估计失去有效性且影响显著性判断。
基于以上理由,我们考虑采用其他方法对引力模型进行系数估计。
为估计
令上标 '~' 表示变量相对于其时间序列均值的偏离,例如
其次,考虑两个共同因子的特性,按照
将
由于
基于此,当
式中
完全对称地,我们也可以得到:
值得注意的是,
另外,偏移估计仅提供了对模型参数的估计,而无法对其进行显著性检验。
泊松回归通常意义上是估计「计数数据模型」的标准方法,Gourieroux 等 (1984) 通过放松因变量分布的假设,使泊松回归不再局限于计数数据。作为泊松回归的一种简单拓展,泊松伪极大似然(Poisson Pseudo Maximum Likelihood,PPML)估计法被广泛用于估算含有大量零值且存在异方差的贸易数据,即使因变量不服从泊松分布,PPML回归也能得到一致无偏的估算结果。
Correia S et al. (2020) 进一步修正了 PPML 估计法,在存在高维固定效应(Multiple High-Dimensional Fixed Effects)的前提下进行 PPML 回归,称为高维固定效应泊松伪极大似然估计法(PPMLHDFE)。与PPML估计法相比,PPMLHDFE估计法可以更为稳健地检验伪极大似然估计。
IRLS 算法
GLM 是基于 Nelder 和 Wedderbum (1972) 引入的指数分布族的一类回归模型,主要包括流行的非线性回归模型,例如 Logit、Probit、Cloglog 和 Poisson 。 Hardin 和 Hilbe (2018) 将指数族定义如下:
其中,
给定一组具有
则 GLM 的似然函数可以写为:
通过求解 (伪) 似然最大化的一阶条件,得到
其中
泊松伪极大似然估计 (PPML)
泊松回归定义如下:
实现 IRLS 的回归权重可以简化为:
而中间回归的因变量则为:
因此,在
处理 HDFE
在 HDFE 下,IRLS 的困难是
其中,
其中,
加速 HDFE–GIRLS
命令 poi2hdfe
可以实现式 reghdfe
作为运行 HDFE 加权最小二乘回归。这是一个密集型计算过程,需要在每次 IRLS 迭代中估算 HDFE 回归模型。但是,ppmlhdfe
中有多种变通办法,可以使其效率更高。例如,ppmlhdfe
直接嵌入 reghdfe
的 Mata 中。因此利用了这样一个事实,它们在每个 IRLS 迭代中保持不变,某些计算只需要执行一次。但最显著的速度改进来自于对标准 HDFE–IRLS 算法的改进,该算法旨在减少对 reghdfe
的调用次数。
最大似然估计的存在性
Santos Silva 和 Tenreyro (2010,2011) 指出,对于某些数据配置,可能不存在泊松回归的最大似然估计 (MLE),进而导致估计可能无法收敛或收敛到错误的值。在泊松回归的情况下,如果对数似然随着一个或多个系数趋于无穷大而单调增加,则会发生这种情况。Santos Silva 和 Tenreyro (2010) 认为发生这种情况的主要原因是变量间的多重共线性。为此,他们建议排除有问题的变量。但是,排除哪个回归变量是一个模棱两可的决定,可能会影响其余参数的识别。此外,在具有多个 HDFE 的泊松模型中,该策略甚至不可行。
Correia 等 (2019) 讨论了各种 GLM 模型估计中的必要条件和充分条件,并表明在泊松回归情况下,如果从样本中删除一些观察值,可能得到总 MLE 估计。这些单独的观测值不传递估计过程的相关信息,可以安全地丢弃。同时,删除这些观察值后,某些回归变量将产生共线性,因此也必须删除。此外,Correia 等 (2019) 提出了一种识别分离观察结果的方法,并且即使在 HDFE 存在情况下,也可以成功运行。
渐进偏误
Weidner and Zylkin (2021) 指出,当时间维度固定时,以 PPMLHDFE 得出的点估计值和聚类稳健夹心估计量(通常用于推断)均具有阶数为
为此 Weidner and Zylkin (2021) 在其论文中提出了一种偏差修正算法,在 Stata 中我们可以通过 ppml_fe_bias
命令实现对该渐进偏误的修正。
注意到在泊松回归中,隐含着一个重要假设:
如果贸易额度(被解释变量)的期望和方差差距很大——方差明显大于期望,我们称此时数据集存在过度分散(Overdispersion)问题,就有必要引入负二项分布回归法(Negative Binominal Regression,NBREG),相比于泊松回归,其主要区别在于对
即在泊松回归的基础上多了一个扰动项
这表明在负二项回归中,条件方差大于条件期望,且条件方差是
在某种意义上,泊松回归和负二项回归的关系有如线性模型中 OLS 与 WLS 的关系。即使数据中存在过度分散,“泊松回归+稳健标准误”依然提供了对参数及标准误的一致估计,这类似于在异方差的情况下使用“OLS+稳健标准误”。因此在样本量足够大的情况下,泊松模型就已经能够满足大多数经济学研究的精度要求了。且 Kareem F O 等 (2016) 比较了存在大量零额贸易时不同估计方法的表现,认为基于PPML估计法的一系列估计方法表现得更胜一筹。
基于此,实例中我们仍以泊松模型为主进行命令介绍与演示。
命令安装:
ssc install reghdfe, replace
ssc install ftools, replace // ftools 为使用 reghdfe 命令的必须工具包
其语法结构与下面的 ppmlhdfe
基本一致,具体可参考往期推文 reghdfe:多维面板固定效应估计 。
命令安装:
ssc install ppmlhdfe, replace
// reghdfe 和 ftools 是使用 ppmlhdfe 的必须工具包
ssc install reghdfe, replace
ssc install ftools, replace
语法结构:
ppmlhdfe depvar [indepvars] [if] [in] [weight] , ///
[absorb(absvars)] [options]
depvar
:被解释变量;
indepvars
:解释变量;
absorb(absvars)
:要吸收的分类变量 (固定效应),也允许单独的斜率;
absorb(..., savefe)
:使用 hdfe # 保存所有固定效应估计值。
[options]
选项:
exposure(varname)
:在系数约束为 1 的模型中包含 ln(varname);offset(varname)
:在系数约束为 1 的模型中包含 varname;d(newvar)
:将固定效应之和另存为 newvar;d
:如上,但变量将另存为 _ppmlhdfe_d;vce(vcetype)
:vcetype 可以是 robust 或聚类;verbose(#)
:显示调试信息量;nolog
:隐藏迭代日志;tolerance(#)
:收敛标准,默认为 tolerance(1e-8)
;guess(string)
:设置用于设置初始值的规则;eform
:报告指数系数;irr
:eform 的同义词;separation(string)
:用于删除分离的观测值及其相关回归变量的算法;maxiteration(#)
:指定最大迭代次数;keepsingletons
:不要删除单例组;version
:报告 ppmlhdfe
的版本号和日期;display_options
:控制回归表的选项,如置信水平、数字格式等。命令安装:
ssc install ppml_fe_bias, replace
// 以下四个 packages 是使用 ppml_fe_bias 的必要工具箱
ssc install outreg, replace
ssc install hdfe, replace
ssc install gtools, replace
ssc install rowmat_utils, replace
语法结构:
ppml_fe_bias depvar [indepvars] [if] [in], ///
lambda(varname) i(exp_id) j(imp_id) t(time_id) [options]
lambda(varname)
:输入代表固定效应之和的变量 varname;
i(exp_id) j(imp_id) t(time_id)
:分别输入代表出口国、进口国与时间的类别变量。
[options]
选项:
bias(name)
:将系数的误差矫正信息存储在矩阵 name 中;v(name)
:将误差矫正后的方差矩阵存储在 name 中;beta(name)
:输入由 ppmlhdfe 得到的系数估计矩阵;approx
:采用估计算法计算方差偏差;exact
:采用精确算法计算方差偏差。语法结构:
nbreg depvar [indepvars] [if] [in] [weight] [, nbreg_options]
该命令为 Stata 内置命令,语法结构与基础的 reg
命令相似,在处理高维固定效应模型时需手动设定虚拟变量。
使用 ppml_ panel_sg
命令提供的辅助数据和示例来拟合引力模型。该数据集包含 35 个国家 1986 年至 2004 年的年度双边贸易数据。目的是估计自由贸易协定变量 fta 对贸易的影响。在本例中,我们希望控制国家对固定效应 (country-pair fixed effects) 和国家时间固定效应 (对于进口国和出口国)。此外,希望标准误聚类在国家对的级别上。
* 数据下载地址:
* https://gitee.com/arlionn/data/blob/master/data01/EXAMPLE_TRADE_FTA.dta
use http://fmwww.bc.edu/RePEc/bocode/e/EXAMPLE_TRADE_FTA_DATA if category=="TOTAL", clear
egen imp = group(isoimp)
egen exp = group(isoexp)
ppmlhdfe trade fta, absorb(imp#year exp#year imp#exp) cluster(imp#exp) d nolog
//提取固定效应之和与系数估计矩阵并进行偏差矫正
predict lambda
matrix beta = e(b)
ppml_fe_bias trade fta, i(exp) j(imp) t(year) lambda(lambda) beta(beta)
Converged in 11 iterations and 35 HDFE sub-iterations (tol = 1.0e-08)
HDFE PPML regression No. of obs = 5,950
Absorbing 3 HDFE groups Residual df = 1,189
Statistics robust to heteroskedasticity Wald chi2(1) = 21.04
Deviance = 377332502.3 Prob > chi2 = 0.0000
Log pseudolikelihood = -188710931.7 Pseudo R2 = 0.9938
Number of clusters (imp#exp)= 1,190
(Std. Err. adjusted for 1,190 clusters in imp#exp)
-------------------------------------------------------------------
| Robust
trade | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------+-----------------------------------------------------------
fta | .1924455 .0419527 4.59 0.000 .1102197 .2746713
_cons | 16.45706 .0217308 757.32 0.000 16.41447 16.49965
-------------------------------------------------------------------
Absorbed degrees of freedom:
-----------------------------------------------------+
Absorbed FE | Categories - Redundant = Num. Coefs |
-------------+---------------------------------------|
imp#year | 175 0 175 |
exp#year | 175 5 170 |
imp#exp | 1190 1190 0 *|
-----------------------------------------------------+
* = FE nested within cluster; treated as redundant for DoF computation
Adjusted SEs
.0527904093
bias corrections (to be subtracted from original coefficients)
.0060619547
note: beta matrix will be shortened to the same length as the number of x-variables
-------------------------------------------------------------
original bias adjusted SEs bias-corrected
-------------------------------------------------------------
fta 0.1924455 0.0060620 0.0527904 0.1863835
(0.0419527) (0.0527904)***
-------------------------------------------------------------
Standard errors clustered by pair, using a local de-biasing adjustment
to account for estimation noise in the exp-year and imp-year fixed effects.
* p<0.10; ** p<0.05; *** p<0.01
利用 ppmlhdfe
命令进行估计,并采用 ppml_fe_bias
进行偏差修正,结果显示贸易协定变量 fta 的系数估计修正值为 0.1863835 ,修正稳健标准误为 0.0527904 ,对国家间贸易额在 1% 水平下有显著正向影响。
执行代码:
* 采用负二项回归时,需采用创建交叉项的虚拟变量的方式控制相应的固定效应
egen impexp=group(imp exp)
nbreg trade fta i.(imp#year) i.(exp#year) i.impexp vce(cluster impexp)
reghdfe trade fta, absorb(imp#year exp#year imp#exp) cluster(imp#exp)
在实际操作过程中,不难发现命令 nbreg
所需的运算时间远长于其他两种估计方法,在处理大样本数据时这尤其会成为负二项回归的一个相对较明显的缺点。
将三种估计方式的结果汇总如下:
Regression Table
-------------------------------------------------------------------
| (1) (2) (3)
| PPMLHDFE NBREG REGHDFE
-------+-----------------------------------------------------------
fta | 0.186*** 0.156*** 2.34e+06***
| (3.53) (2.80) (2.96)
-------+-----------------------------------------------------------
N | 5950 5950 5950
r2_a | 0.84
r2_p | 0.99 0.11
-------------------------------------------------------------------
表格中 fta 一行内括号中的数字代表显著性检验值,结果显示无论选取何种估计方式,贸易协定变量均在 1% 水平上对两国间贸易额具有显著正向影响,但检验值可能存在一定差别,因此在核心解释变量的作用相对不显著的情况下,选取不同的估计方式可能会对实证结论产生影响。
需注意的是,由于 ppmlhdfe
和 nbreg
采用的均是伪极大似然估计法,故仅存在伪 ppmlhdfe
的拟合能力明显高于 nbreg
。
贸易引力模型在双边贸易流量影响因素问题上具有较强的解释力且在诸多应用中取得了较大的成功。本文详细介绍了三维固定效应引力模型的数学构造、估计算法、偏差修正算法与相应的 Stata 命令操作,并在实例中对三种典型的估计方法进行了初步比较。
Note:产生如下推文列表的 Stata 命令为:
lianxh 三维 引力 离散 泊松
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh