温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
作者: 王恩泽 (武汉大学经济与管理学院)
邮箱: enzewang2008@163.com
目录
相对分布是评估两个分布间关系的一种有效手段,其直接关注于两个分布间的差异而非单个分布的特征。
相对分布可定义为一个分布的结果在另一个分布中呈现的相对等级的分布。具体而言,以参照组为基础,相对分布将实验组的分布映射于基准组不同分位数水平上。例如,女性工资在男性工资分配中的相对地位,即在男性工资级别的某一水平上 (如十分位数工资水平,1000 ~ 2000元) ,女性工资分配情况如何。很明显,相对分布关注的是等级 (rank,工资分位数) 而非绝对水平 (level,工资)。具体来看:
设定
密度函数为:
相对累积分布函数
reldist
可用于估计并分析两组或者两个变量间的相对分布。具体而言,其可用来估计和绘制相对概率密度函数 (relative PDF) 或者相对累计分布函数 (relative CDF)。此外,该命令可计算相对极化指数以及相应数据的描述性统计,并且支持通过调整位置、规模、形状或协变量分布差异对相对分布进行分解。在本推文中,笔者主要对相对概率密度函数和相对累积分布函数进行介绍,不涉及极化指数及分解部分,如有兴趣请自行阅读参考文献。
在社会科学研究中,具有组间差异或时间变化特征的数据分布往往无法通过一般的统计量进行准确捕捉与测度。具体而言,该类数据的差异与变化不仅包括均值与方差的变化,也包括其分布的变化 (例如上尾与下尾的变化)。因此,在该情况下,使用相对分布既能对数据特征进行更为全面且准确的刻画,也能提供分布变化原因的相关信息。例如,相对概率密度函数 (relative PDF) 提供了两个分布间的密度比;相对累计分布函数 (relative CDF) 则将一个分布中的数据映射为另一分布的百分比排名。
范例 1:使用相对分布检验工资增长 (Handcock and Morris, 1998)
在该文中,作者使用相对分布对美国工资分布的变化进行检验。具体而言,作者分别选取国家纵向调查数据 (National Longitudinal Survey) 中的两组工资数据作为基准组和实验组,两组数据分别始于 1966 年和 1979 年。
上图展示了基准组和实验组工资增长的相对累计分布函数。图中 45 度线为分布等价线,在该等价线下方表示实验组有更高的工资收益,在该等价线上方表示基准组有更高的工资收益。
首先,在基准组工资收益的中位数处
其次,在实验组工资收益的中位数处
最后,我们还可以发现实验组中
上图展示了基准组和实验组工资增长的相对概率密度函数。当相对密度值大于
观察该图可知,两组数据间差异最大处为分布的最左侧:在基准组的十分位工资收益区间内,实验组的频数约为基准组的三倍。不同的是,在分布的中间位置,实验组的频数约等于基准组的
范例 2:使用相对分布检验体重指数 (Contoyannis and Wildman, 2007)
该文中,作者使用相对分布对英国和加拿大体重指数的分布变化进行了检验。本文仅以加拿大女性体重指数的分布变化为例。
首先,作者选取 1994 年 5 月数据作为基准组,2000 年 1 月数据作为实验组对加拿大女性体重指数的变化进行检验。图三为相对累计分布函数,从图中可以发现,与基准组相比,实验组体重指数略大;同时,只有约
上图为相对累计概率密度函数图。其中,实线为总体相对概率密度函数,而虚线为
reldist
是外部命令,可以使用如下命令安装最新版本:
ssc install reldist, replace
若想获取附带数据文件和说明文件,可以在命令窗口中输入:
net describe http://repec.org/bocode/r/reldist
需要特别强调的是,reldist
会调用几个外部命令,因此,你需要预先安装:kdens
, kmatch
, moremata
。若需了解这些命令的详情和附带文档,可以在命令窗口输入 net describe cmdName
,亦可以直接输入如下命令安装程序文件:
net install kdens
net install kmatch
net install moremate
若需获取程序附带的数据和说明文档等文件 (若有),可以输入 net get cmdName
。
基本语法格式为:
reldist subcmd varname [if] [in] [weight], by(groupvar) [ options ]
subcmd
表示绘图类型,如相对累积分布图 (cdf)、相对概率密度图 (pdf);varname
表示变量名称;groupvar
表示分组变量名称。在本部分,本文借助于 Stata 提供的默认数据,对工会工人与非工会工人工资分布的差异进行比较。其中,非工会工人为基准组,工会工人为实验组。
范例1:相对累积分布图 (Relative cumulative distribution)
首先,引入数据;其次,借助 reldist
命令计算相对函数;最后,借助 reldist
命令对相对累积分布图进行绘制。
sysuse nlsw88, clear
reldist cdf wage, by(union)
reldist graph
绘制图形如下所示:
图中 45 度红线为分布等价线,在该等价线下方表示工会工人有更高的工资收益,在该等价线上方表示非工会工人有更高的工资收益。很明显,与非工会工人相比,工会工人的工资水平更高。此外,在基准组 (非工会工人) 工资收益的中位数处
范例2:相对概率密度分布图与直方图 (Relative density and histogram)
首先,引入数据;其次,借助 reldist
命令计算相对函数;最后,借助 reldist
命令绘制相应图形。
sysuse nlsw88, clear
reldist pdf wage, by(union)
reldist graph, ciopts(recast(rline) lp(dash) pstyle(p1)) // recast 调整置信曲线范围内颜色;lp 设定置信曲线种类;pstyle 调整置信曲线颜色
绘制图形如下所示:
当相对密度值 (纵轴) 大于
若需在相对密度分布图中添加上轴坐标,本例为基准分布各分为点对应的小时工资数,需运行如下命令:
reldist graph, ciopts(recast(rline) lp(dash) pstyle(p1)) olabel(2(1)8 10 12 20) otitle(hourly wage)
绘制图形如下所示:
通过该图纵坐标可以看出基准组不同分位数处所对应的小时工资水平,如基准组第二十分位数处对应的小时工资水平为
若需在相对密度分布图中引入直方图,需继续运行如下命令:
reldist pdf wage, by(union) histogram
reldist graph, ciopts(recast(rline) lp(dash) pstyle(p1))
绘制图形如下所示:
若想只展示直方图,则运行如下命令:
reldist histogram wage, by(union)
reldist graph
绘制图形如下所示:
本文主要介绍了如何在 Stata 中使用 reldist
命令绘制相对累计分布和相对概率密度分布。相对分布的使用不仅简化了对分布进行比较的过程,更重要的是,与一般的描述性统计相比,相对分布提供了更直观、信息量更丰富的统计结果,这为学者们详细识别两个分布间的差异提供了有效手段。
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟 Stata 33 讲 - 连玉君, 每讲 15 分钟. 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看,所有课程可以随时购买观看。
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 ⭐ | DSGE, 因果推断, 空间计量等 | |
⭕ Stata数据清洗 | 游万海 | 直播, 2 小时,已上线 |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会学习群-常见问题解答汇总:
✨ https://gitee.com/arlionn/WD