温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh
⛳ Stata 系列推文:
作者:许曼曼 (中山大学)
邮箱:451689616@qq.com
编者按:本文摘译自下文,特此致谢!
Source:Rios-Avila F. Smooth varying-coefficient models in Stata[J]. The Stata Journal, 2020, 20(3): 647-679. -PDF- -PPT-
异质性是实证研究中常见的问题,以教育回报率的研究为例,异质性是指教育对不同人群收入的影响是不同的,即不同人群的教育回报率不同。解决异质性问题的常见方法是分组回归或引入交互项 (参见第 9 小节相关推文),以及推文 面板变系数模型:每家公司都有一个斜率 中介绍的方法 。
本文介绍另一种更加方便的方法—— 系数平滑可变模型 (SVCM)。这是一种半参数估计模型。该模型同时具有参数模型完整性和非参数模型灵活性的优点,因此可以更好反映问题的异质性。
非参数估计模型如上式所示,其中
其中,
核函数给予离点
其中转换函数通常是多项式或样条函数。
非参数估计虽然灵活性较强,不需要设定过多假设,但缺点也较为明显:
因此,本文主要根据 Rios-Avila (2020) 的文章介绍一种半参数估计模型,即系数平滑可变模型 (SVCM) 及其 Stata 命令。
SVCM 将解释变量
与非参数模型的估计思路相似,
在本文的 SVCM 中
矩阵形式:
考虑到接近
式 (3) 表示近似的
定义
SVCM 估计中最重要的参数是带宽
标准的 OLS 回归就相当于选择了一个无穷大的带宽
根据去一法-交叉验证 (LOO-CV),最优带宽在
其中,
从上式来看,求出最优带宽似乎需要很大的计算量 (N 组系数),但实际上估计
一是平滑变量虽然是连续变量,但在数据集中的记录形式往往是离散型的,因而待估系数
二是估计
其中,
因此,定义
若使用式 (6) 计算过程还是较慢,可以使用 block/binned LL regression 获得
vc_bw
和 vc_bwalt
命令安装:
search vc_bw
vc_bw
和 vc_bwalt
的语法结构相同:
vc_bw[alt] depvar [indervars] [if] [in], vcoeff(svar) ///
[knots(#k) km(#km) bwi(#) trimsample(trimvar) kernel(kernel) plot]
depar
:因变量 indepvar
:所有对 vcoeff(svar)
:svar 为平滑变量 vcoeff()
明确用于平滑可变系数估计的变量;knots(#k)
与 km(#km)
:可选项,表示以最小化 knot(-2)
表示对平滑变量所有不同值进行交叉验证估计;bwi(#)
:设定初始的带宽值 # 以加快寻找最优带宽的过程;trimsample(trimvar)
:给定变量名称,生成虚拟变量以识别出用于交叉验证的子样本;kernel(kernel)
:设置核函数以得到估计所需的权重,默认为高斯函数;plot
: 画出带宽 以某地的月度酒驾传票数量数据集 (dui.dta) 为例。假设认为酒驾传票数量 (citations) 受到该地是否处在大学区 (college)、酒精饮料是否为税收商品 (taxes)、城市水平 (csize) 等变量的影响,若要研究不同水平下的罚款 (fines) 对于该线性关系的影响,则可以建立以罚款为平滑变量的 SVCM。
*数据地址:https://gitee.com/arlionn/data/blob/master/data01/dui.dta
. webuse dui.dta
(Fictional data on monthly drunk driving citations)
. sum
Variable | Obs Mean Std. Dev. Min Max
-----------+----------------------------------------
taxes | 500 .704 .4569481 0 1
fines | 500 9.8952 .7818949 7.4 12
csize | 500 2.006 .8434375 1 3
college | 500 .248 .4322843 0 1
citations | 500 22.018 9.802748 4 80
以 citations 为因变量,college、taxes、csize 为解释变量,fines 为平滑变量,建立系数平滑可变模型。首先,通过交叉验证获得最优带宽。
. vc_bw citations taxes college i.csize, vcoeff(fines)
Kernel: gaussian
Iteration: 0 BW: 0.5539761 CV: 3.129985
Iteration: 1 BW: 0.6870520 CV: 3.120199
Iteration: 2 BW: 0.7343729 CV: 3.119504
Iteration: 3 BW: 0.7397456 CV: 3.119497
Iteration: 4 BW: 0.7397999 CV: 3.119497
Bandwidth stored in global $opbw_
Kernel function stored in global $kernel_
VC variable name stored in global $vcoeff_
命令执行结束后,会列示出交叉验证迭代过程中的几项带宽 opbw_
、kernel_
、vcoeff_
的宏中。
获得最优带宽
其中,
与 HC2 (heteroskedasticity-consistent 2) 和 (HC3) 等价的方式,用