Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者: 董洁妙 (暨南大学)
邮箱:graceveio@163.com
目录
编者按:本文的是如下论文的 Stata 实操版本
Chiang, H.D., K. Kato, Y. Ma, and Y. Sasaki, 2022, Multiway Cluster Robust Double/Debiased Machine Learning. Journal of Business & Economic Statistics, 40(3), pp. 1046-1056. -Link-, -PDF-
近年来,研究人员在实证研究中经常使用多通道聚类的抽样数据展开分析:如匹配后的雇主-雇员数据、匹配后的学生-教师数据、观察结果按商店和产品双重索引的匹配数据、以及观察结果按市场和产品双重索引的市场份额数据等。
这些数据通常会面临着多维相关性的问题,并不符合独立同分布的性质。并且,如果只在单一层面估计聚类标准误,就会难以兼顾另一层面相关性对结果所造成的偏误。
因此,Chiang et al.(2022)利用 Chernozhukov et al.(2018)开发的 DML工具箱(Double Machine Learning:用于估算和推断具有高维和/或无限维干扰参数的结构参数),提出了一种改进的多向交叉拟合DML估计方法,使之适应多向聚类采样数据,提升估计结果的有效性。
为了推广这一估计方法的使用,Chiang et al.(2022) 编写了 crhdreg
命令,用于估计双重聚类稳健的标准误、以及估计使用偏置机器学习(DML)方法的高维回归结果。
下文将详细介绍 crhdreg
命令的使用方法。
这一命令的安装如下:
ssc install crhdreg, replace
安装好命令之后,可以输入 help crhdreg
,查看 crhdreg
的帮助文档。
help crhdreg
如帮助文档所示,crhdreg
的语法结构如下:
crhdreg depvar indepvarlist1 indepvarlist2 [if] [in] [, cluster1(varname) cluster2(varname) iv(varname) dimension(real) folds(real) resample(real) median alpha(real) tol(real) maxiter(real)]
depvar
:指定回归的被解释变量。indepvarlist1
:指定回归的内生解释变量。indepvarlist2
:指定回归的外生解释变量;通常是控制变量。cluster1(varname)
:设置聚类变量;在单向或双向聚类中构建第一个聚类维度。不调用这个选项会自动导致执行更高维的LS回归或无聚类的高维IV回归。cluster2(varname)
:设置聚类变量;在单向或双向聚类中构建第二个聚类维度。如果调用了cluster1而没有调用cluster2,那么命令会执行的只有一种聚类方式(以cluster1选项设置的变量为主)的高维LS回归或高维IV回归。iv(varname)
:设置indepvarlist1
的工具变量;当这一选项不被调动时,该命令将执行高维LS回归。dimension(real)
:设置 indepvarlist1
中变量的数量,这些变量的系数将显示在输出表中。 默认值是 dimension(1)
。 它必须是一个正整数,不大于包含在 indepvarlist1
和 indepvarlist2
中的变量总数。folds(real)
:设置双重/偏置机器学习中交叉拟合的折叠次数K。在无聚类或单向聚类的情况下,默认值为folds(5)。 在双向聚类的情况下,默认值是folds(3)。它必须是一个大于1的正整数。resample(real)
:设置双重/偏倚机器学习的精细样本调整的重采样次数。 默认值是resample(10)。它必须是一个正整数。median
:设置指示器,表示有限样本调整使用重新抽样的估计值的中位数。 不调用这个选项会导致使用重新抽样的估计值的平均值。alpha(real)
:设置弹性网络算法(Elastic Net 是一种使用L1和L2先验作为正则化矩阵的线性回归模型;这种组合用于只有很少的权重非零的稀疏模型)中的惩罚权重。默认值是alpha(1),弹性网络算法是LASSO(最小绝对收缩和选择操作)。如果这个选项被设置为alpha(0),那么弹性网络算法就变成了岭回归模型。此外,这个参数必须是一个介于0和1之间的实数。tol(real)
:设置公差作为弹性网络算法的数值解的停止标准。 默认值是tol(0.000001)。这个参数必须是严格的正实数。maxiter(real)
:设置弹性网数值解的最大迭代次数。 默认值是maxiter(1000)。这个参数必须是一个自然数。
为了更好地理解 crhdreg
在实际分析中的应用,不妨以 Calvi et al. (2021) 使用是否加入美国退休金401k计划对个人净固定资产的影响进行举例。
401k计划是指美国1978年《国内税收法》新增的第401条k项条款的规定,具体指代一种由雇员、雇主共同缴费建立起来的完全基金式的养老保险制度。但是,个人选择养老保险会与家庭、年龄相关;相似家庭规模的人群更容易同时选择是否参与养老保险制度,同一年龄层的个体也更容易同时选择是否加入养老保险计划。那么,如果只使用稳健性标准误,就有可能忽视个体之间的相关性,而导致结果有偏;而如果只针对单一层面的相关性进行聚类,又有可能未能完全考虑个体相关对回归结果所造成的偏误。
因此,针对这种情况,Chiang et al.(2022)提出了双向稳健性标准误的估算方式,通过 crhdreg
命令估计加入401计划对个人净固定资产所造成的影响。
· bcuse 401ksubs, clear
crhdreg
命令估计加入401计划对个人净固定资产所造成的影响。 · crhdreg nettfa p401k inc
· est store eq_LS
· xtile grf = fsize, nq(10)
//此处是为了举例所做的简化,实际操作时并不必要这一步
· crhdreg nettfa p401k inc, cluster1(grf)
· est store eq_c1
· xtile gra = age, nq(10)
//此处是为了举例所做的简化,实际操作时并不必要这一步
· crhdreg nettfa p401k inc, cluster2(gra)
· est store eq_c2
· crhdreg nettfa p401k inc, cluster1(grf)
cluster2(gra)
· est store eq_c1c2
· crhdreg nettfa p401k inc, iv(e401k)
cluster1(grf) cluster2(gra)
· est store eq_iv
下表汇总了前五种情况的回归结果。直观可见,加入更多维度的聚类会使核心变量的显著程度明显下降;但尽管如此,Chiang et al.(2020)仍然建议使用双向聚类的结果作为基准,以更好地展示真实一致的估计结果。
. esttab eq_*
------------------------------------------------------------
(1) (2) (3) (4) (5)
------------------------------------------------------------
p401k 13.20*** 11.22*** 13.20*** 12.01* 9.253
(6.98) (5.63) (6.98) (2.09) (1.61)
------------------------------------------------------------
N 9275 9275 9275 9275 9275
------------------------------------------------------------
t statistics in parentheses
* p<0.05, ** p<0.01, *** p<0.001
相信大家在阅读本推文后,对何时使用双向聚类估计,以及如何使用 crhdreg
命令获取双向聚类的估计结果有了更深入的理解。不过,它也存在一些不足,比如只能够考虑双重偏误冲击所造成的影响。未来,几个可能性的优化方向包括:
Chiang, H.D., K. Kato, Y. Ma, and Y. Sasaki, 2022, Multiway Cluster Robust Double/Debiased Machine Learning. Journal of Business & Economic Statistics, 40(3), pp. 1046-1056. -Link-, -PDF-
Calvi, R., A. Lewbel, and D. Tommasi, 2021, LATE With Missing or Mismeasured Treatment. Journal of Business & Economic Statistics, forthcoming. -Link-, -PDF-
Chernozhukov, V., Chetverikov, D., Demirer, M., Duflo, E., Hansen, C., Newey, W., and J. Robins, 2018, Double/debiased machine learning for treatment and structural parameters. -Link-, -PDF-
Note:产生如下推文列表的 Stata 命令为:
lianxh 标准误
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh