Stata:双重机器学习-多维聚类标准误的估计方法-crhdreg

发布时间:2022-08-14 阅读 351

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者: 董洁妙 (暨南大学)
邮箱:graceveio@163.com


目录


编者按:本文的是如下论文的 Stata 实操版本
Chiang, H.D., K. Kato, Y. Ma, and Y. Sasaki, 2022, Multiway Cluster Robust Double/Debiased Machine Learning. Journal of Business & Economic Statistics, 40(3), pp. 1046-1056. -Link-, -PDF-

1. 背景简介

近年来,研究人员在实证研究中经常使用多通道聚类的抽样数据展开分析:如匹配后的雇主-雇员数据、匹配后的学生-教师数据、观察结果按商店和产品双重索引的匹配数据、以及观察结果按市场和产品双重索引的市场份额数据等。

这些数据通常会面临着多维相关性的问题,并不符合独立同分布的性质。并且,如果只在单一层面估计聚类标准误,就会难以兼顾另一层面相关性对结果所造成的偏误。

因此,Chiang et al.(2022)利用 Chernozhukov et al.(2018)开发的 DML工具箱(Double Machine Learning:用于估算和推断具有高维和/或无限维干扰参数的结构参数),提出了一种改进的多向交叉拟合DML估计方法,使之适应多向聚类采样数据,提升估计结果的有效性。

为了推广这一估计方法的使用,Chiang et al.(2022) 编写了 crhdreg 命令,用于估计双重聚类稳健的标准误、以及估计使用偏置机器学习(DML)方法的高维回归结果。

下文将详细介绍 crhdreg 命令的使用方法。

2. crhdreg 命令

2.1 命令安装

这一命令的安装如下:

ssc install crhdreg, replace

2.1 命令语法

安装好命令之后,可以输入 help crhdreg,查看 crhdreg 的帮助文档。

help crhdreg

如帮助文档所示,crhdreg 的语法结构如下:

crhdreg depvar indepvarlist1 indepvarlist2 [if] [in] [, cluster1(varname) cluster2(varname) iv(varname) dimension(real) folds(real) resample(real) median alpha(real) tol(real) maxiter(real)]
  • depvar:指定回归的被解释变量。
  • indepvarlist1:指定回归的内生解释变量。
  • indepvarlist2 :指定回归的外生解释变量;通常是控制变量。
  • cluster1(varname):设置聚类变量;在单向或双向聚类中构建第一个聚类维度。不调用这个选项会自动导致执行更高维的LS回归或无聚类的高维IV回归。
  • cluster2(varname):设置聚类变量;在单向或双向聚类中构建第二个聚类维度。如果调用了cluster1而没有调用cluster2,那么命令会执行的只有一种聚类方式(以cluster1选项设置的变量为主)的高维LS回归或高维IV回归。
  • iv(varname):设置indepvarlist1的工具变量;当这一选项不被调动时,该命令将执行高维LS回归。
  • dimension(real):设置 indepvarlist1 中变量的数量,这些变量的系数将显示在输出表中。 默认值是 dimension(1) 。 它必须是一个正整数,不大于包含在 indepvarlist1indepvarlist2 中的变量总数。
  • folds(real):设置双重/偏置机器学习中交叉拟合的折叠次数K。在无聚类或单向聚类的情况下,默认值为folds(5)。 在双向聚类的情况下,默认值是folds(3)。它必须是一个大于1的正整数。
  • resample(real):设置双重/偏倚机器学习的精细样本调整的重采样次数。 默认值是resample(10)。它必须是一个正整数。
  • median:设置指示器,表示有限样本调整使用重新抽样的估计值的中位数。 不调用这个选项会导致使用重新抽样的估计值的平均值。
  • alpha(real):设置弹性网络算法(Elastic Net 是一种使用L1和L2先验作为正则化矩阵的线性回归模型;这种组合用于只有很少的权重非零的稀疏模型)中的惩罚权重。默认值是alpha(1),弹性网络算法是LASSO(最小绝对收缩和选择操作)。如果这个选项被设置为alpha(0),那么弹性网络算法就变成了岭回归模型。此外,这个参数必须是一个介于0和1之间的实数。
  • tol(real):设置公差作为弹性网络算法的数值解的停止标准。 默认值是tol(0.000001)。这个参数必须是严格的正实数。
  • maxiter(real):设置弹性网数值解的最大迭代次数。 默认值是maxiter(1000)。这个参数必须是一个自然数。

3. Stata 实操

为了更好地理解 crhdreg 在实际分析中的应用,不妨以 Calvi et al. (2021) 使用是否加入美国退休金401k计划对个人净固定资产的影响进行举例。

401k计划是指美国1978年《国内税收法》新增的第401条k项条款的规定,具体指代一种由雇员、雇主共同缴费建立起来的完全基金式的养老保险制度。但是,个人选择养老保险会与家庭、年龄相关;相似家庭规模的人群更容易同时选择是否参与养老保险制度,同一年龄层的个体也更容易同时选择是否加入养老保险计划。那么,如果只使用稳健性标准误,就有可能忽视个体之间的相关性,而导致结果有偏;而如果只针对单一层面的相关性进行聚类,又有可能未能完全考虑个体相关对回归结果所造成的偏误。

因此,针对这种情况,Chiang et al.(2022)提出了双向稳健性标准误的估算方式,通过 crhdreg 命令估计加入401计划对个人净固定资产所造成的影响。

  • 首先,调用数据进行回归分析:
 · bcuse 401ksubs, clear
  • 接着,假定被解释变量是个人净固定资产(nettfa),解释变量是是否加入401计划(p401k),控制变量是个人年度收入,本文使用 crhdreg 命令估计加入401计划对个人净固定资产所造成的影响。
 · crhdreg nettfa p401k inc
 · est store eq_LS
  • 第三,由于相似家庭规模的人群更容易同时选择是否参与养老保险制度,引入聚类在家庭规模变量(grf)的标准误,修正回归结果。
 · xtile grf = fsize, nq(10) 
 //此处是为了举例所做的简化,实际操作时并不必要这一步

 · crhdreg nettfa p401k inc, cluster1(grf)
 · est store eq_c1
  • 类似地,由于同一年龄层的个体也更容易同时选择是否加入养老保险计划,引入聚类在年龄层面(age)的标准误,修正回归结果。
 · xtile gra = age, nq(10) 
 //此处是为了举例所做的简化,实际操作时并不必要这一步

 · crhdreg nettfa p401k inc, cluster2(gra)
 · est store eq_c2
  • 第四,考虑到同时存在两个维度的相关性,同时引入聚类在家庭规模层面(fsize)的标准误、以及聚类在年龄层面(age)的标准误,修正回归结果。
 · crhdreg nettfa p401k inc, cluster1(grf) 
   cluster2(gra)
 · est store eq_c1c2
  • 第六,考虑到p401k可能存在内生性,假设e401k是合适的工具变量,修正的回归结果如下所示。
 · crhdreg nettfa p401k inc, iv(e401k)  
   cluster1(grf) cluster2(gra)
 · est store eq_iv 

下表汇总了前五种情况的回归结果。直观可见,加入更多维度的聚类会使核心变量的显著程度明显下降;但尽管如此,Chiang et al.(2020)仍然建议使用双向聚类的结果作为基准,以更好地展示真实一致的估计结果。

. esttab eq_*

------------------------------------------------------------
         (1)         (2)         (3)        (4)       (5)   
                                                      
------------------------------------------------------------
p401k  13.20***    11.22***    13.20***   12.01*    9.253   
      (6.98)      (5.63)      (6.98)     (2.09)    (1.61)   
------------------------------------------------------------
N       9275        9275        9275       9275      9275   
------------------------------------------------------------
t statistics in parentheses
* p<0.05, ** p<0.01, *** p<0.001

4. 结语

相信大家在阅读本推文后,对何时使用双向聚类估计,以及如何使用 crhdreg 命令获取双向聚类的估计结果有了更深入的理解。不过,它也存在一些不足,比如只能够考虑双重偏误冲击所造成的影响。未来,几个可能性的优化方向包括:

  • 目前,作者所使用的聚类估计是以线性模型的设定出发,未来可以适当放松至非线性模型的设定得到相关结果;
  • 尽管文章关注的是无条件时刻限制(unconditional moment restrictions)的情况,但为条件时刻限制(conditional moment restrictions)开发一种方法和理论可能是可能的,也是重要的。

5. 参考资料

  • Chiang, H.D., K. Kato, Y. Ma, and Y. Sasaki, 2022, Multiway Cluster Robust Double/Debiased Machine Learning. Journal of Business & Economic Statistics, 40(3), pp. 1046-1056. -Link-, -PDF-

  • Calvi, R., A. Lewbel, and D. Tommasi, 2021, LATE With Missing or Mismeasured Treatment. Journal of Business & Economic Statistics, forthcoming. -Link-, -PDF-

  • Chernozhukov, V., Chetverikov, D., Demirer, M., Duflo, E., Hansen, C., Newey, W., and J. Robins, 2018, Double/debiased machine learning for treatment and structural parameters. -Link-, -PDF-

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 标准误
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh