Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:李秋萍 (中国地质大学)
邮箱:liqiuping2017@outlook.com
目录
基本思想:研究的样本或变量之间存在着程度不同的相似性 (亲疏关系)。
基本原理:根据样本自身的属性,用数学方法按照某种相似性 (或差异性 ) 指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。
分析步骤:
研究样本或变量的相似性的数量指标有两种:
相似系数:性质越相似的样本或变量,它们的相似系数越接近于 1 或 -1,而彼此越无关的变量或样本相似系数越接近于 0。常用相似系数统计量有两个:
距离:将每一个样本看作 p 维空间的一个点,用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点归为不同类。常用距离统计量有以下几种:
根据聚类对象的不同,分为 Q 型聚类和 R 型聚类:
根据聚类方法的不同分为系统聚类、K 均值聚类、模糊聚类、图论聚类法等,其中,
系统聚类法:最常用的聚类方法之一,又称为层次聚类 (hierarchical cluster)。事先不确定要分多少类,先把每一个对象作为一类,然后按照一定层次进行分类聚类。不仅度量个体之间的距离,还度量类与类之间的距离,由类间距离定义的不同产生不同的聚类方法;
K 均值聚类法:又称为快速聚类 (quick cluster),事先需要确定要分的类别数据,效率比层次聚类要高。若观测数据比较大 (通常 200 以上),宜使用快速聚类分析方法。
// Kmeans cluster analysis
cluster kmeans [varlist] [if] [in] , k(#) [ options ]
// Kmedians cluster analysis
cluster kmedians [varlist] [if] [in] , k(#) [ options ]
options Description
---------------------------------------------------------------
* k(#) 聚类到 # 个组
measure(measure) 相似性或不相似性度量,默认为 L2 (欧式距离)
name(clname) 聚类分析结果名称
Options
start(start_option) 获取 k 个初始组
keepcenters 将 k 个最终组的平均值或中位数添加到数据中
Advanced
generate(groupvar) 分组变量名称
iterate(#) 最大迭代次数,默认是迭代 (10000)
---------------------------------------------------------------
. webuse labtech, clear //加载数据
. cluster kmeans x1 x2 x3 x4, k(8) //进行 kmeams 聚类分析,生产8个组
. cluster kmeans x1 x2 x3 x4, k(8) measure(L1) name(k8abs) //用绝对值距离代替欧氏距离,命名聚类分析结果为k8abs
. cluster kmedians x1 x2 x3 x4, k(6) measure(Canberra) //执行kmedians聚类分析,使用兰式距离创建6个组
. cluster kmedians x1 x2 x3 x4, k(6) start(firstk) //创建6个组,使用数据集中的前6个观察数据作为起始中心
. cluster kmedians x1 x2 x3 x4, k(6) start(firstk, exclude) //不包括前6个观察结果
clustermat
命令是 cluster
命令中的一部分,对用户提供的不相似矩阵进行层次聚类分析。使用 clustermat
命令可以使用所有的分层聚类方法,但不可以使用分区聚类方法 (kmeans 和 kmedians)。
clustermat linkage matname ...
linkage Description
----------------------------------------------------------------
singlelinkage single-linkage cluster analysis
averagelinkage average-linkage cluster analysis
completelinkage complete-linkage cluster analysis
waveragelinkage weighted-average linkage cluster analysis
medianlinkage median-linkage cluster analysis
centroidlinkage centroid-linkage cluster analysis
wardslinkage Ward's linkage cluster analysis
---------------------------------------------------------------
. webuse wclub, clear //加载数据
. matrix dissimilarity clubD = , variables Jaccard dissim(oneminus)
. matlist clubD[1..5, 1..5] //检查不相似矩阵
. clustermat singlelinkage clubD, name(singlink) clear //执行最短距离聚类分析,并清除内存中的数据集
. cluster dendrogram singlink //图形
. clustermat wardslinkage clubD, name(wardslink) add //执行Ward距离聚类分析,在内存中添加结果
. cluster dendrogram wardslink //查看结果
在聚类命令后,可用 cluster list
命令描述聚类过程:
. cluster list
wardslink (type: hierarchical, method: wards, dissimilarity: user matrix clubD)
vars: wardslink_id (id variable)
wardslink_ord (order variable)
wardslink_hgt (height variable)
other: cmd: clustermat wardslinkage clubD, name(wardslink) add
singlink (type: hierarchical, method: single, dissimilarity: user matrix clubD)
vars: singlink_id (id variable)
singlink_ord (order variable)
singlink_hgt (height variable)
other: cmd: clustermat singlelinkage clubD, name(singlink) clear
cluster
帮助文档
Note:产生如下推文列表的 Stata 命令为:
lianxh cluster 聚类, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh