Stata:分位数回归简介

发布时间:2020-10-09 阅读 9907

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者: 武翰涛 (普林斯顿大学)
Email: ht_wu@foxmail.com


目录


1. 引言

在多数实证分析中,我们关注的焦点都在于考察解释变量 x 对被解释变量 y 的影响,其思想是从平均数的角度去分析得到参数结果,即均值回归。但均值回归往往会受到极端值的影响,使得参数估计变得很不稳定 (在执行分组回归时这一问题尤其突出)。另一方面,基于 OLS 的线性回归模型只能让我们分析 x 对 y 的平均影响效果。而当,条件分布 y|x 不是对称分布时,条件期望 E(y|x) 很难反映整个条件分布的全貌。如果能估计条件分布 y|x 的若干重要条件分布,就能对条件分布 y|x 有更全面的认识[1]。

2 分位数回归模型

2.1 总体分位数

假设 Y 为连续型随机变量,其累积分布函数为 Fy(),则 Y 的“总体 q 分位数”,记为 yq,满足以下定义式:

即总体 q 分位数yq正好将总体分布分为两部分,其中小于或等于 yq 的概率为q,而大于 yq 的概率为 (1q)。如果 q=1/2 则为中位数,正好将总体分为两个相等的部分,一半在中位数之上,而另一半在中位数之下。如果 Fy() 严格单调递增,则有

其中,Fy1() 为 Fy() 的逆函数。

对于回归模型而言,记条件分布 y|x 的累积分布函数为 Fy|x()。条件分布 y|x 的总体 q 分位数,记为 yq,满足以下定义式:

假设Fy|x()严格单调递增,则有

由于条件累积分布函数 Fy|x() 依赖于 x,故条件分布 y|x 的总体 q 分位数 yq 也依赖于 x,可以明确地写为 yq(x),称为 ”条件分位数函数“。换言之,条件分位数函数 yq(x) 是解释变量 x 的函数。更进一步,对于线性回归模型而言,如果扰动项满足同方差的假定,或扰动项异方差的形式为乘积形式,则 yq(x) 是 x 的线性函数[2]。

2.2 样本分位数

对于随机变量 Y ,如果总体的q分位数 yq 未知,则可以使用样本 q 分位数 y^q 来估计 yq 。通常的做法是,首先将样本数据 {y1,y2,,yn} 按照从小到大的顺序排列为 {y(1),y(2),,y(n)} ,则 y^q 等于第 [nq] 个最小观测值,其中 n 为样本容量, [nq] 表示大于或等于nq并离nq最近的正整数。比如n=95,q=0.5,则 [nq]=[95×0.5]=[47.5]=48 [3]。 但上述样本分位数的计算方法不容易推广到回归模型。因此,一种更方便的等价方法便是将样本分位数看成某个最小化的解。事实上,样本均值也可以看成是最小化残差问题的最优解,即:

类似地,样本中位数可以视为是"最小化残差绝对值之和"问题的最优解,即:

2.3 分位数估计方法

分位数回归方法 (QR) 最早由 Koenker,Bassett 提出,是基于反应变量 Y 的条件分布来估计应变量 X 参数的线性回归方法,即根据不同分位点利用样本含有的不同信息对模型进行回归分析。鉴于最小二乘法的最优估计要求模型的随机扰动项服从独立同分布,而分位数回归不对模型做任何分布假设,且不对矩函数有任何要求,这就非常适合部分不存在阶矩函数的数据,即可能存在的异常数据不会影响到模型的参数估计。因此用分位数回归来研究宏观金融等数据是非常稳健的,且能够较好地捕捉分布的尖峰厚尾特征,从而满足不同条件分析的需求。

设 FyX(y) 在随机变量 X 下 Y 的条件分布函数,则 Y 的第τ(0,1) 个条件分布数为:

式中 inf() 是下确界函数。 对于观测样本 (Xi,Yi)Rp×R1,i=1,2,,n,p 为向量 Xi 的维数。如果在 Xi 下 Yi 的 τ 条件分位数为 Xi 的线性函数,即Qz(Yi|Xi)=XiTβ(τ),这里的 T 表示转置,β(τ)Rp 为系数向量,则系数向量 β(τ) 的分位数估计值为:

式中:

ρτ(u)={τu,u0(τ1)u,u<0

称为线性损失函数。 分位数回归估计式 (2) 等价于下面的式 (3) :

显然,分位点不同时估算出的模型参数也不同,因而可以得到不同的回归方程,决策者可以从中选出最贴近实际问题的回归方程。

连享会计量方法专题……

3 Stata 范例

我们可以使用 qreg 命令来实现分位数回归模型,这里我们使用 Stata 自带的数据 auto.dta

首先进行中位数回归:

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
. sysuse "auto.dta", clear(1978 Automobile Data)
. qreg price mpg rep78 headroom trunk weight lengthIteration 1: WLS sum of weighted deviations = 54582.043…… (output omitted)Iteration 6: sum of abs. weighted deviations = 52754.926
Median regression Number of obs = 69 Raw sum of deviations 65163 (about 5079) Min sum of deviations 52754.93 Pseudo R2 = 0.1904
------------------------------------------------------------------------------ price | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- mpg | -20.44398 100.1651 -0.20 0.839 -220.6711 179.7831 rep78 | 766.3722 380.1109 2.02 0.048 6.541433 1526.203 headroom | -527.2818 525.7287 -1.00 0.320 -1578.199 523.635 trunk | 108.3175 131.2516 0.83 0.412 -154.0507 370.6857 weight | 4.197336 1.385672 3.03 0.004 1.427417 6.967255 length | -88.23944 51.85082 -1.70 0.094 -191.8878 15.40887 _cons | 7474.973 7400.575 1.01 0.316 -7318.566 22268.51-----------------------------------------------------------------------------```

有上述结果可知,mpg 每增加一单位,会使价格中位数降低 20.44 个单位,即当汽车每加仑能行走的公里数提高一个单位,中档价位的汽车便会降低20.44个单位,但统计结果上并不显著。

下面使用自助法来计算分位数回归的标准误。为便于复制结果,指定随机数的种子。

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
. set seed 10000  // 设定种子值. bsqreg price mpg rep78 headroom trunk weight length, reps(400) q(0.5)(fitting base model)
Bootstrap replications (400)----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5 .................................................. 50................. (output omitted) .................................................. 400
Median regression, bootstrap(400) SEs Number of obs = 69 Raw sum of deviations 65163 (about 5079) Min sum of deviations 52754.93 Pseudo R2 = 0.1904
------------------------------------------------------------------------------ price | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+---------------------------------------------------------------- mpg | -20.44398 87.80782 -0.23 0.817 -195.9693 155.0814 rep78 | 766.3722 414.1785 1.85 0.069 -61.55878 1594.303 headroom | -527.2818 341.1344 -1.55 0.127 -1209.2 154.6362 trunk | 108.3175 99.74076 1.09 0.282 -91.06144 307.6964 weight | 4.197336 3.256015 1.29 0.202 -2.311345 10.70602 length | -88.23944 90.8892 -0.97 0.335 -269.9244 93.44548 _cons | 7474.973 8075.536 0.93 0.358 -8667.793 23617.74-----------------------------------------------------------------------------

进一步地,考察 0.25、0.5、0.75 分位点上的回归结果:

  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
  • ounter(line
. sqreg price mpg rep78 headroom trunk weight length, q(0.25 0.5 0.75) reps(400)(fitting base model)
Bootstrap replications (400)----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5 .................................................. 50 (output omitted) .................................................. 400
Simultaneous quantile regression Number of obs = 69 bootstrap(400) SEs .25 Pseudo R2 = 0.1953 .50 Pseudo R2 = 0.1904 .75 Pseudo R2 = 0.3665
------------------------------------------------------------------------------ | Bootstrap price | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------q25 | mpg | -58.85941 60.6889 -0.97 0.336 -180.1748 62.45596 rep78 | 378.5492 182.5255 2.07 0.042 13.68592 743.4125 headroom | -428.4049 177.6041 -2.41 0.019 -783.4304 -73.37946 trunk | 157.9781 53.96136 2.93 0.005 50.11082 265.8453 weight | .8091042 1.739727 0.47 0.644 -2.668561 4.28677 length | -24.49825 47.20241 -0.52 0.606 -118.8545 69.85801 _cons | 5805.491 4010.312 1.45 0.153 -2211.008 13821.99-------------+----------------------------------------------------------------q50 | mpg | -20.44398 98.12396 -0.21 0.836 -216.591 175.703 rep78 | 766.3722 410.5124 1.87 0.067 -54.23035 1586.975 headroom | -527.2818 316.1929 -1.67 0.100 -1159.342 104.7788 trunk | 108.3175 100.5004 1.08 0.285 -92.57998 309.215 weight | 4.197336 3.346488 1.25 0.214 -2.492198 10.88687 length | -88.23944 93.76858 -0.94 0.350 -275.6802 99.20127 _cons | 7474.973 8158.464 0.92 0.363 -8833.564 23783.51-------------+----------------------------------------------------------------q75 | mpg | -158.3163 115.8176 -1.37 0.177 -389.8324 73.19971 rep78 | 1453.687 447.9351 3.25 0.002 558.2771 2349.096 headroom | -837.2497 580.2633 -1.44 0.154 -1997.18 322.6801 trunk | 90.09523 136.9239 0.66 0.513 -183.6118 363.8023 weight | 7.364424 2.936931 2.51 0.015 1.493583 13.23527 length | -185.4982 95.92216 -1.93 0.058 -377.2439 6.247448 _cons | 19508.66 10929.18 1.79 0.079 -2338.458 41355.77-----------------------------------------------------------------------------```

将分位数回归系数随着分位数的变化情形画图表示,则有:

  • ounter(line
  • ounter(line
.  qui bsqreg price mpg rep78 headroom trunk weight length,reps(400) q(0.5).  qrqreg, cons ci ols olci

参考资料

Source[1]:分位数回归理论及其应用」 「Source[2]:高级计量经济学及Stata应用」 「Source[3]:分位数回归及应用简介

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD