MIDAS:混频数据回归

发布时间:2020-10-31 阅读 11781

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

杨冬: (重庆大学)
E-Mail: yang.dong@cqu.edu.cn

Note: 本文主要内容来自如下论文,有兴趣的小伙伴可以详读原文:

[Source]: Ghysels E, Kvedaras V, Zemlys V. Mixed Frequency Data Sampling Regression Models: The R Package midasr[J]. Journal of Statistical Software, 2016, 72(4). -PDF-

MIDAS 是「Mixed Frequency Data Sampling Regression Models」的简称,有多个对应的中文名称,如「混频抽样回归」、「混频抽样方法」、「混频回归」等。

基于混频数据建立模型的方法,充分利用原始数据本身包含的信息来构建数据模型。在传统的宏观计量模型中,数据存在不同频率,一般需要通过运用汇总或内插方法将混频频率数据统一为相同频率数据,然后以处理之后的相同频率数据应用于宏观经济模型。这种方法建立的模型由于人为的数据累加或内插会引起的原始数据内含的信息量增加和丢失。 相关学者提出直接使用混频数据来构建混频数据模型,这种方式建立的模型充分利用高频数据中的信息,避免了由于数据处理过程中人为处理而导致的数据信息虚增与丢失,在一定程度上可以提高宏观模型估计有效性和预测的准确性。 (摘自:混频 MIDAS 模型在宏观经济研究领域应用评述,-Link-)。

Ghysels et al. (2002) 提出 MIDAS 模型以来,由于其处理混频数据的便利性而被广泛应用于金融波动率和宏观经济预测等领域。本文将从如下三个方面对如何基于 R 语言的 MIDAS 模型在宏观经济预测方面的应用做简要的介绍。

  • MIDAS 模型设定
  • MIDAS 模型估计
  • MIDAS 模型应用

1. MIDAS 模型设定

假定{yt,tZ}为低频可观测的一元时间序列,其滞后算子用 B 表示,即 Byt=yt1。MIDAS 回归涉及到对随机过程{xτ(i),τZ},i=0,,k 的线性投影。其中 xτ(i) 为高频可观测序列,即在对应的每一个低频时期 t=t0,我们观测到的 xτ(i) 的时期 τ=(t01)mi+1,,t0mi,其中 miN 为高频解释变量相对于低频解释变量抽样频率的倍差,当 mi=1 时,MIDAS 模型退化为同频模型。高频解释变量 xτ(i) 滞后算子用 L 表示,即 Lxτ(i)=xτ1(i)。基于上述设定,MIDAS 模型可表述为如下形式:

上述模型设定形式可采用通常的时间序列回归或贝叶斯方法进行估计。但随着模型中滞后阶数的增加,待估参数 d=p+ikli 也会快速增加。为了解决这一问题,Ghysels(2002)等建议采用一个充分灵活的函数形式对原参数进行约束,即

通过函数化约束可以大大减少待估参数个数,从 d 减少到 q=i=0hiqi。函数化约束虽然可以有效减少待估参数的个数,但也导致模型不再线性化,因此需要采用 NLS 或极大似然进行估计。为了说明函数化约束的优势,图 1 分别给出了无约束、正确约束和不正确约束三种条件下均方误差和估计值与真实参数差异的结果。

由图 1 结果可知,随着样本容量的增加,即使不正确的约束也表现出了较为理想的效果。

更为常见的,上述 MIDAS 模型是以一个紧集的形式表述:

其中,α(z)=1j=1pαjzj,且

2. MIDAS 模型估计

上述紧集的表述形式可以直接采用 OLS 估计而无需对参数进行约束,因而该模型也被Foroni, et al. (2015)称为无约束的 MIDAS(U-MIDAS)模型。对于存在约束的 MIDAS(R-MIDAS)模型,我们可以采用 NLS 估计:

其中,有约束参数的滞后分布多项式定义为如下形式:

3. MIDAS 模型应用

R 中用于建立 MIDAS 模型的程序包名为midasr,在使用该模型前,我们需要对该程序包进行安装

install.packages("midasr")

我们使用该程序包中含有的数据对美国的季度 GDP 预测为例,其预测方程形式如下:

其中,yt 是经过季节调整后的美国季度 GDP 的对数差分值,xt 是月度非农就业总人数的对数差分。在进行建模前,我们对数据做必要的变换和处理。

# input data
data("USqgdp", package = "midasr")
data("USpayems", package = "midasr")
# define the date
y <- window(USqgdp, end = c(2011, 2))
x <- window(USpayems, end = c(2011, 7))
# take log difference
yg <- diff(log(y)) * 100
xg <- diff(log(x)) * 100
# fill the missing value
nx <- ts(c(NA, xg, NA, NA), start = start(x), frequency = 12)
ny <- ts(c(rep(NA, 33), yg, NA), start = start(x), frequency = 4)

上面程序的最后两行是为了保证样本量相对应。进一步地,我们来看一下调整后的数据格式

# check the data
head(nx,9)
            Jan        Feb        Mar        Apr        May        Jun        Jul        Aug        Sep
1939         NA  0.5930978  0.5929035 -0.6161612  0.6821896  0.6644543 -0.2724842  0.7989303  1.1962214

> head(ny,36)
         Qtr1     Qtr2     Qtr3     Qtr4
1939       NA       NA       NA       NA
1940       NA       NA       NA       NA
1941       NA       NA       NA       NA
1942       NA       NA       NA       NA
1943       NA       NA       NA       NA
1944       NA       NA       NA       NA
1945       NA       NA       NA       NA
1946       NA       NA       NA       NA
1947       NA 1.307742 1.531053 3.997397

由上述数据格式可知,MIDAS 模型需要解释变量和被解释变量对应时期的样本均需列入,没有的观测可用NA代替。经过处理后的时间序列图如下所示

Ghysels(2013)设定形式一致,我们限制估计样本时间从 1985 年第一季度至 2009 年第一季度,并分别采用有约束的Beta分布多项式 MIDAS 模型、有约束的非零Beta分布多项式 MIDAS 模型和 U-MIDAS 模型进行建模。

xx <- window(nx, start = c(1985, 1), end = c(2009, 3))
yy <- window(ny, start = c(1985, 1), end = c(2009, 1))
beta0 <- midas_r(yy ~ mls(yy, 1, 1) + mls(xx, 3:11, 3, nbeta), start = list(xx = c(1.7, 1, 5)))
coef(beta0)
(Intercept) yy xx1 xx2 xx3
0.8315274 0.1058910 2.5887103 1.0201202 13.6867809
betan <- midas_r(yy ~ mls(yy, 1, 1) + mls(xx, 3:11, 3, nbetaMT),
+ start = list(xx = c(2, 1, 5, 0)))
coef(betan)
(Intercept) yy xx1 xx2 xx3 xx4
0.93778705 0.06748141 2.26970646 0.98659174 1.49616336 -0.09184983
um <- midas_r(yy ~ mls(yy, 1, 1) + mls(xx, 3:11, 3), start = NULL)
coef(um)
(Intercept) yy xx1 xx2 xx3 xx4
0.92989757 0.08358393 2.00047205 0.88134597 0.42964662 -0.17596814
xx5 xx6 xx7 xx8 xx9
0.28351010 1.16285271 -0.53081967 -0.73391876 -1.18732001

基于这三个模型,我们可以利用 2009 年二季度至 2011 年二季度数据对预测表现进行评价。

fulldata <- list(xx = window(nx, start = c(1985, 1), end = c(2011, 6)), yy = window(ny, start = c(1985, 1), end = c(2011, 2)))
insample <- 1:length(yy)
outsample <- (1:length(fulldata$yy))[-insample]
avgf <- average_forecast(list(beta0, betan, um), data = fulldata, insample = insample, outsample = outsample)
sqrt(avgf$accuracy$individual$MSE.out.of.sample)
[1] 0.5361953 0.4766972 0.4457144

由上述结果可知,U-MIDAS 模型具有最小的样本外 RMSE 结果,为 0.4457144。

4. 参考资料

  • Andreou, E., Ghysels, E., & Kourtellos, A. (2013). Should Macroeconomic Forecasters Use Daily Financial Data and How. Journal of Business & Economic Statistics, 31(2), 240–251.
  • Ball, R. T., & Gallo, L. A. (2018). A Mixed Data Sampling Approach to Accounting Research.
    • Ball, R. T., Gallo, L. A., & Ghysels, E. (2019). Tilting the Evidence: The Role of Firm-Level Earnings Attributes in the Relation between Aggregated Earnings and Gross Domestic Product. Review of Accounting Studies, 24(2), 570–592. -Link-,DIO: https://doi.org/10.1007/s11142-019-09493-0
  • Clements, M. P., & Galvão, A. B. (2008). Macroeconomic Forecasting With Mixed-Frequency Data. Journal of Business & Economic Statistics, 26(4), 546–554. -PDF-, -Link-
  • Foroni C, Marcellino M, Schumacher C (2015). “Unrestricted Mixed Data Sampling (MIDAS): MIDAS Regressions with Unrestricted Lag Polynomials.” Journal of the Royal Statistical Society A, 178(1), 57–82. -Link-
  • Ghysels E, Santa-Clara P, Valkanov R (2002). “The MIDAS Touch: Mixed Data Sampling Regression Models.” Working paper, UNC and UCLA. -Link-
  • Ghysels E (2013). “MATLAB Toolbox for Mixed Sampling Frequency Data Analysis Using MIDAS Regression Models.” Available on MATLAB Central at -Link-
  • Ghysels, E., Sinko, A., & Valkanov, R. I. (2007). MIDAS regressions: Further results and new directions. Econometric Reviews, 26(1), 53–90. DIO: <10.1080/07474930600972467>, -Link-
  • Ghysels, E., Santa-Clara, P., & Valkanov, R. I. (2005). There is a Risk-Return Tradeoff after All. Journal of Financial Economics, 76(3), 509–548. -Link--PDF-
  • Ghysels, E., Santa-Clara, P., & Valkanov, R. I. (2006). Predicting Volatility: Getting the Most out of Return Data Sampled at Different Frequencies. Journal of Econometrics, 131(1), 59–95.
  • Ghysels, E., Kvedaras, V., & Zemlys-Balevičius, V. (2020). Mixed data sampling (MIDAS) regression models (Vol. 42, pp. 117–153).
  • Kuzin, V., Marcellino, M. G., & Schumacher, C. (2011). Midas Vs. Mixed-Frequency VAR: Nowcasting GDP in the Euro Area. International Journal of Forecasting, 27(2), 529–542. -Link-

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata 数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2 小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata 连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD