王群勇,经济学教授、博士生导师,南开大学数量经济研究所所长,中国数量经济学会常务理事,中国统计学会常务理事。主持国家自科基金、国家社科基金、教育部人文社科、国家统计局重大等多项课题。获得首届国家统计科技进步三等奖、天津市科技进步二等奖等多项荣誉。在《China Economic Review》、《Stata Journal》、《Journal of Family and Economics Issues》、《数量经济技术经济研究》、《统计研究》等SSCI和CSSCI期刊发表多篇论文,并担任期刊匿名审稿人。编写了 xthreg(平衡面板及非平衡面板固定效应面板门限模型)、cointreg(协整回归)、sax12(X12-ARIMA季节调整)、sax13(X-13ARIMA-SEATS季节调整)、stregress(平滑转换模型)、xtstregress(面板平滑转换模型)、midasreg(混频回归)、mixrereess 等 Stata 程序。
C. 本次课程相对于往期课程的变化
初级班
新增了「实证分析可视化」专题,包括:FWL 定理、固定效应、DID 的图形解释;边际效应、分仓散点图、系数差异可视化,以及 Stata 绘图的基本架构。
模型设定 专题更新了 70% 以上的内容,包括:条件均值模型的解释、边际效应分析、反事实框架等。
高级班 的内容是全新的,包括:
广义线性模型:Logit/Probit/Count Data 模型等非线性模型都可以借助这一框架来理解。
其二,希望诸位能建立起 Stata 的基本架构,熟知 Stata 能做什么、如何做?以期为后续学习打下宽厚扎实的基础。
翻阅 Top 期刊上的论文,你会发现多数论文并没有使用非常复杂的方法,关键在于论文的想法或视角比较独特,并使用了恰当的方法来论证。这里的关键在于研究设计,而这在目前的计量教科书中鲜有涉及。为此,本次研讨班突出两个特点:一方面,我会努力把基础知识讲解透彻,进度上不求快;另一方面,我在每个专题中都会提供了 2-3 篇比较经典的论文,展示这些方法的合理应用。
在内容安排上,基本上遵循了由浅入深,循序渐进的原则。
第 1-3 讲依序介绍 Stata 的基本用法、数据处理、程序编写和可视化分析,学习这些内容无需太多的计量经济学基础,但对于提高实证分析能力和分析效率,大有裨益。
在第 1-2 讲中,我会以一篇文章为实例,说明 Stata 的基本语法结构,并对数据处理过程中的关键问题进行介绍,如离群值的处理、文字变量的处理等。就我个人的经验而言,数据处理能力的高低直接决定实证分析的效率,而对于离群值等问题的处理是否妥善会直接影响全文结果的稳健性,是多数人不够重视但却至关重要的问题。此前有不少学完了高级班的同学又回炉初级班,便是感悟到了这一点。
第 3 讲介绍 Stata 编程的基础知识。但凡提及写程序,很多人都会产生恐惧心理,其实,一旦掌握了最基本的原理和语法格式,Stata 中的程序设定并没有想象的那么困难。更为重要的是,对于多数人而言,由于并不需要写完整的 ado 文档,因此只需要学会最基本的条件语句和循环语句即可,难度又会进一步降低。一旦掌握了基本的编程知识和理念,你的实证分析便开始进入「快车道」了。
Akcigit, U., J. Grigsby, T. Nicholas, S. Stantcheva, 2022, Taxation and innovation in the twentieth century, The Quarterly Journal of Economics, 137 (1): 329-385. -Link-, -PDF-, -Appendix-, -cited-, -Replication-
Sherman M G, Tookes H E. Female representation in the academic finance profession. Journal of Finance, 2022, 77(1): 317-365. -Link-, -cited-, -PDF-, -Replication-
A4. 线性回归分析
条件期望函数:OLS, MLE 与 MM 的关系
线性概率模型
OLS 估计和系数含义
FWL 定理 (Frisch-Waugh-Lovell)
假设检验和统计推断
稳健性标准误:Bootstrap、Jackknife、聚类调整
结果输出与呈现
A5. 模型设定和解释
控制变量:选取、含义、可视化
变量缩放
取对数:弹性与半弹性
虚拟变量与固定效应
交乘项、平方项、高阶项与调节效应
因子变量与边际效应分析
DID, RDD 与 RKD
A6. 静态面板数据模型
何谓个体效应?FE v.s. RE
高维固定效应模型
长差分 (long difference)
交互固定效应模型
异方差和序列相关(Bootstrap、Cluster 调整标准误)
面板模型中的非时变变量和宏观变量如何分析?
实证分析中的常见问题
Stata 实操
Akcigit, U., J. Grigsby, T. Nicholas, S. Stantcheva, 2022, Taxation and innovation in the twentieth century, The Quarterly Journal of Economics, 137 (1): 329-385. -Link-, -PDF-, -Appendix-, -cited-, -Replication-
A7. 一篇 Top 期刊论文重现
Akcigit, U., J. Grigsby, T. Nicholas, S. Stantcheva, 2022, Taxation and innovation in the twentieth century, The Quarterly Journal of Economics, 137 (1): 329-385. -Link-, -PDF-, -Appendix-, -cited-, -Replication-
Sherman M G, Tookes H E. Female representation in the academic finance profession. Journal of Finance, 2022, 77(1): 317-365. -Link-, -cited-, -PDF-, -Replication-
Chen, Yan, and Onur Kesten. 2017, Chinese College Admissions and School Choice Reforms: A Theoretical Analysis. Journal of Political Economy, 125 (1): 99–139. -Link-, -PDF-. 理论部分
Chen, Yan, et al., 2020, An Empirical Evaluation of Chinese College Admissions Reforms through a Natural Experiment.” Proceedings of the National Academy of Sciences of the United States of America, 2020, 117(50): 31696–31705. -Link-, -PDF-, -附件附表-, -Stata Data-codes- 实证
方法:DID,PSM+DID,Probit-margins
Fisman, R., J. Shi, Y. Wang, W. Wu, 2020, Social ties and the selection of China’s political elite, American Economic Review, 110 (6): 1752-1781. -Link-, -PDF1-, -cited-, -Replication-
方法:reghdfe,线性概率模型
B2. 样本选择与自选择 (selection-treatment)
截断、截堵与选择性偏差
Tobit 模型
Heckman 选择模型
处理效应模型
两部模型和双栏模型
Stata 实操:范文 2 篇
B3. 非参数和半参数估计 (NP-SNP)
分布函数和密度函数
核函数
局部线性回归
局部多项式回归
partial linear regression (PLS)
应用:断点回归分析 (RDD)
范文:
Chen Yu, S. Shi, Y. Tang. 2019, Valuing the urban hukou in China: Evidence from a regression discontinuity design for housing prices. The Journal of Development Economics, 141 (2019) 102381. -Link-,-PDF-
Ludwig, J., D. L. Miller, 2007, Does head start improve children's life chances? Evidence from a regression discontinuity design, The Quarterly Journal of Economics, 122 (1): 159-208. -Link-, -PDF-
B4. 基于再抽样的统计推断方法
Bootstrap (自抽样)
Jackknife (去一法, LOO)
交叉验证 (CV)
变量筛选规则:AIC, BIC, MBIC
应用:
AP1:组间系数差异检验、面板门槛效应检验
AP2:回归控制法
AP3:Lasso-合成控制法
参考文献:
Hansen, B. E., 1999, Threshold effects in non-dynamic panels: Estimation, testing, and inference, Journal of Econometrics, 93 (2): 345-368. -Link-, -PDF-
Abadie, A., J. L’Hour, 2021, A penalized synthetic control estimator for disaggregated data, Journal of the American Statistical Association, 116 (536): 1817-1834. -Link-, -PDF-
B5. 惩罚回归 (PR-Lasso)
Lasso 已经成为变量筛选的一个重要手段。
高维数据/大数据的挑战;
偏差-方差权衡
岭回归、Lasso、弹性网、自适应 Lasso
扩展 Lasso 模型
adaptive Lasso
IV - Lasso
Post - Lasso
Double robust regression (DR)
Double Machine Learning (DML)
参考文献:
Chernozhukov, Victor, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, and Whitney Newey. 2017. "Double/Debiased/Neyman Machine Learning of Treatment Effects." American Economic Review, 107 (5): 261-265. -Link-, -PDF-, -Replication-R, -2-
Chernozhukov, V., D. Chetverikov, M. Demirer, E. Duflo, C. Hansen, W. Newey,J. Robins, 2018, Double/debiased machine learning for treatment and structural parameters, The Econometrics Journal, 21 (1): C1-C68. -Link-, -PDF-, Replication
B6. 回归控制法 (RCM) 与合成控制法 (SCM)
回归控制法和合成控制法简介
Lasso-RCM:基于 Lasso 等惩罚回归的 RCM
Lasso-SCM:基于 Lasso 等惩罚回归的 SCM、
队列 SCM 及处理效应的置信区间 (New)
RCM 与 SCM 的对比
参考文献:
Abadie, A., A. Diamond, J. Hainmueller, 2010, Synthetic control methods for comparative case studies: Estimating the effect of california's tobacco control program, Journal of the American Statistical Association, 105 (490): 493-505. PDF
Hansen, B. E., 1999, Threshold effects in non-dynamic panels: Estimation, testing, and inference, Journal of Econometrics, 93 (2): 345-368. -Link-, -PDF-, -cited-4400+次
Wang, Q., 2015, Fixed-effect panel threshold model using stata, Stata Journal, 15: 121-134. -Link-, -PDF-, -cited240+次
应用:1-2 篇,随课件发布
C2. 面板平滑转换模型
平滑转换模型
估计与检验
预读文献:
González, A., T. Teräsvirta, D. v. Dijk, Y. Yang, 2017, Panel smooth transition regression models, Working paper / Department of Statistics, Uppsala University. PDF, -Cited-800+次
应用:1-2 篇,随课件发布
C3. 受限因变量非线性面板模型
非线性面板 (NLS 估计)
面板 Probit/Logit
面板 Tobit(随机效应与相关随机效应)
面板泊松回归(随机效应与固定效应)
预读文献:
Cruz-Gonzalez M., Iván Fernández-Val, Martin Weidner, 2017, Bias Corrections for Probit and Logit Models with Two-way Fixed Effects, Stata Journal, 17(3): 517–545. -PDF-, -PDF2-
Alexander Plum, 2014, Simulated Multivariate Random-Effects Probit Models for Unbalanced Panels, Stata Journal, 14(2): 259–279. -PDF-
Sergio Correia, Paulo Guimarães, Tom Z Zylkin, 2020, Fast Poisson estimation with high-dimensional fixed effects, Stata Journal, 20(1): 95–115. -PDF-, -PDF2-
应用:1-2 篇,随课件发布
C4. 内生转换模型
线性模型的内生转换模型
非线性模型的内生转换模型
内生处理效应
预读文献:
Miranda A., 2004, FIML Estimation of an Endogenous Switching Model for Count Data, Stata Journal, 4(1): 40–49. -PDF-
Lokshin M., Zurab Sajaia, 2004, Maximum Likelihood Estimation of Endogenous Switching Regression Models, Stata Journal, 4(3): 282–289. -PDF-
Miranda A., Sophia Rabe-Hesketh, 2006, Maximum Likelihood Estimation of Endogenous Switching and Sample Selection Models for Binary, Ordinal, and Count Variables, Stata Journal, 6(3): 285–308. -PDF-
Bostwick, V. K., D. G. Steigerwald, 2014, Obtaining Critical Values for Test of Markov Regime Switching, Stata Journal, 14(3): 481–498. -PDF-
Takuya Hasebe, 2020, Endogenous switching regression model and treatment effects of count-data outcome, 20(3): 627–646. -PDF-, -Link-
应用:1-2 篇,随课件发布
C5. 面板异质性与截面相关
面板交互固定效应
面板变系数模型
面板截面相关
预读文献:
Moon, H. R., M. Weidner, 2015, Linear regression for panel with unknown number of factors as interactive fixed effects, Econometrica, 83 (4): 1543-1579. -Link-, -PDF-
Bai, J. S., 2009, Panel data models with interactive fixed effects, Econometrica, 77 (4): 1229-1279. -Link-, -PDF-
Pesaran, M. H., 2006, Estimation and inference in large heterogeneous panels with a multifactor error structure, Econometrica, 74 (4): 967-1012. [-Link-](https://doi.org/DOI 10.1111/j.1468-0262.2006.00692.x), [-PDF-](https://sci-hub.ren/DOI 10.1111/j.1468-0262.2006.00692.x)
Kahn, M. E., K. Mohaddes, R. N. C. Ng, M. H. Pesaran, M. Raissi,J.-C. Yang, 2021, Long-term macroeconomic effects of climate change: A cross-country analysis, Energy Economics, 104: 105624. -Link-, -PDF1-, -PDF2-, -Replication-, Cited.
应用:1-2 篇,随课件发布
C6. 混频回归:宏观和微观数据结合
混频回归模型(mixed frequency data sampling)
混合回归模型(mixed data sampling)
预读文献:
Ghysels, E., A. Sinko, R. Valkanov, 2007, Midas regressions: Further results and new directions, Econometric Reviews, 26 (1): 53-90. -Link-, -PDF-
Ghysels, E., H. Qian, 2019, Estimating midas regressions via ols with polynomial parameter profiling, Econometrics and Statistics, 9: 1-16. -Link-, -PDF-