温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
云峰 (华南师范大学)
目录
Stata 中描述性统计的命令琳琅满目,常用的命令包括 sum
、table
、tabulate
、tabstat
等,这些命令都有各自的特点,在不同的情况下选择合适的命令可以起到事半功倍的效果。我们在论文中往往会进行分组描述,但是常用的描述性统计命令中却存在简洁的命令无法进行分组统计,而可以分组统计的代码往往比较复杂的尴尬情况。今天我们就介绍的sumup
命令专为快捷分组统计描述量身定做,方便又使用,你值得拥有。
语法格式:sumup var1,by(var2)
实例
sysuse nlsw88.dta
sumup wage, by(race)
race | Obs Missing Mean Std. Dev. Min Max
-------+-------------------------------------------------------------
white | 1637 0 8.082999 5.955069 1.004952 40.19808
black | 583 0 6.844558 5.076187 1.151368 40.74659
other | 26 0 8.550781 5.20943 1.80602 25.80515
-------+-------------------------------------------------------------
Total | 2246 0 7.766949 5.755523 1.004952 40.74659
---------------------------------------------------------------------
命令解析
var1 var2 分别为统计变量和分组变量。 基本代码只会展示样本数、平均值、缺失值、标准差、最大值和最小值。
语法格式: sumup var1,by(var2) detail
实例
. sysuse nlsw88.dta
. sumup wage, by(race) detail
race | Obs Missing Mean Std. Dev. Skewness Kurtosis
-------+------------------------------------------------------------------
white | 1637 0 8.082999 5.955069 3.00474 14.74577
black | 583 0 6.844558 5.076187 3.516731 21.15914
other | 26 0 8.550781 5.20943 1.428553 5.799663
-------+------------------------------------------------------------------
Total | 2246 0 7.766949 5.755523 3.096199 15.85446
--------------------------------------------------------------------------
race | Min p1 p5 p10 p25 p50
-------+------------------------------------------------------------------
white | 1.004952 2.090301 2.875546 3.344482 4.516906 6.545891
black | 1.151368 1.797659 2.697261 2.884614 3.808373 5.434783
other | 1.80602 1.80602 2.697261 2.898549 5.016103 7.560383
-------+------------------------------------------------------------------
Total | 1.004952 1.930993 2.801002 3.220612 4.259257 6.27227
--------------------------------------------------------------------------
race | p50 p75 p90 p95 p99 Max
-------+------------------------------------------------------------------
white | 6.545891 9.758451 13.14009 17.34411 38.70926 40.19808
black | 5.434783 8.518515 11.6103 14.49275 38.70926 40.74659
other | 7.560383 11.6103 12.77777 17.52817 25.80515 25.80515
-------+------------------------------------------------------------------
Total | 6.27227 9.597424 12.77777 16.52979 38.70926 40.74659
--------------------------------------------------------------------------
命令解析
var1 var2 分别为统计变量和分组变量。 detail
为显示全部指标命令。全部指标除基本指标外还包括峰度、偏度、各分位数等等。
语法格式: sumup var1,by(var2 var3)
实例
. sysuse nlsw88.dta, clear
. sumup wage,by(union married)
union married | Obs Missing Mean Std. Dev. Min Max
----------------+------------------------------------------------------------
nonunio single | 475 0 7.422848 4.496672 1.151368 30.96618
nonunio married | 942 0 7.094653 3.888394 1.344605 30.19324
union single | 181 0 8.973142 4.592883 2.697261 39.23074
union married | 280 0 8.48111 3.876535 1.80602 28.45666
----------------+------------------------------------------------------------
Total | 1878 368 7.565423 4.168369 1.151368 39.23074
-----------------------------------------------------------------------------
命令解析
var1为统计变量, var2 、var3为两个分组变量。
语法格式: sumup var1,by(var2) statistics()
实例
. sysuse nlsw88.dta, clear
. sumup wage, by(industry) statistics(mean p80)
industry | Mean p80
-----------------+----------------------
Ag/Forestry/Fish | 5.621121 8.05153
Mining | 15.34959 40.19808
Construction | 7.564934 9.653782
Manufacturing | 7.501578 9.895326
Transport/Comm/U | 11.44335 13.92109
Wholesale/Retail | 6.125897 7.525084
Finance/Ins/Real | 9.843174 11.61835
Business/Repair | 7.51579 10.45088
Personal Service | 4.401093 5.636071
Entertainment/Re | 6.724409 10.32206
Professional Ser | 7.871186 10.45088
Public Administr | 9.148407 11.07085
-----------------+----------------------
Total | 7.783463 10.32206
----------------------------------------
命令解析
var1 var2 分别为统计变量和分组变量。 statistics
为选定指标命令,括号内选取所需指标。
sum
vs sumup
. sysuse "nlsw88.dta", clear
. sum wage
Variable | Obs Mean Std. Dev. Min Max
---------+----------------------------------------------------
wage | 2,246 7.766949 5.755523 1.004952 40.74659
. sumup wage, by(race)
race | Obs Missing Mean Std. Dev. Min Max
-------+-------------------------------------------------------------
white | 1637 0 8.082999 5.955069 1.004952 40.19808
black | 583 0 6.844558 5.076187 1.151368 40.74659
other | 26 0 8.550781 5.20943 1.80602 25.80515
-------+-------------------------------------------------------------
Total | 2246 0 7.766949 5.755523 1.004952 40.74659
---------------------------------------------------------------------
对比分析
sum
命令中没有分组统计选项,但通过对比我们发现,两个命令的统计格式几乎完全相同。sum
命令以其简洁的命令和直观的呈现为亮点,一直是描述性统计中的热门命令,但却没有分组统计的能力。而sumup
则像是分组统计中的sum
命令,简单又普适。
sumup
vs tabulate
. sysuse "nlsw88.dta", clear
. sumup wage, by(race)
race | Obs Missing Mean Std. Dev. Min Max
-------+------------------------------------------------------------
white | 1637 0 8.082999 5.955069 1.004952 40.19808
black | 583 0 6.844558 5.076187 1.151368 40.74659
other | 26 0 8.550781 5.20943 1.80602 25.80515
-------+------------------------------------------------------------
Total | 2246 0 7.766949 5.755523 1.004952 40.74659
--------------------------------------------------------------------
. tab race,sum(wage)
| Summary of hourly wage
race | Mean Std. Dev. Freq.
--------+------------------------------------
white | 8.0829994 5.9550691 1,637
black | 6.8445578 5.0761866 583
other | 8.5507813 5.2094301 26
--------+------------------------------------
Total | 7.766949 5.7555229 2,246
对比分析
Stata 官方命令中与 sumup
最为接近的命令就是tabulate
。对比发现,虽然两个命令都有分组呈现的作用,且命令都比较简洁,但是相较于 sumup
,tabulate
只展示了均值、样本数和标准差,比起sumup
所能展示的指标还有所欠缺。
sumup
vs tabstat
. sysuse "nlsw88.dta", clear
. sumup wage, by(race)
race | Obs Missing Mean Std. Dev. Min Max
------+-----------------------------------------------------------
white | 1637 0 8.082999 5.955069 1.004952 40.19808
black | 583 0 6.844558 5.076187 1.151368 40.74659
other | 26 0 8.550781 5.20943 1.80602 25.80515
------+-----------------------------------------------------------
Total | 2246 0 7.766949 5.755523 1.004952 40.74659
------------------------------------------------------------------
. tabstat wage, by(race) stat(n mean sd min max) ///
nototal long col(stat)
race variable | N mean sd min max
----------------+---------------------------------------------
white wage | 1637 8.082999 5.955069 1.004952 40.19808
black wage | 583 6.844558 5.076187 1.151368 40.74659
other wage | 26 8.550781 5.20943 1.80602 25.80515
--------------------------------------------------------------
对比分析
sumup
命令作者表示此命令大量借用了tabstat
,是tabstat
的改进版本。对比发现,虽然两个命令都所展示的功能相差无几,但简洁程度可谓天壤之别, sumup
命令的优势不言而喻。
通过与热门描述性统计命令对比发现,sumup
命令实质上是分组描述的sum
命令,相对于tabstat
更为简便快捷、相较于tabulate
功能更加全面。是我们进行分组描述的最佳之选,但本命令也是存在着诸如无法调整结果显示格式等缺点,但瑕不掩瑜,大家快快下载使用吧!
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟 Stata 33 讲 - 连玉君, 每讲 15 分钟. 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看,所有课程可以随时购买观看。
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 ⭐ | DSGE, 因果推断, 空间计量等 | |
⭕ Stata数据清洗 | 游万海 | 直播, 2 小时,已上线 |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会学习群-常见问题解答汇总:
✨ https://gitee.com/arlionn/WD