Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:李珊珊 (中国药科大学)
邮箱:cpulss@163.com
目录
随着全球老龄化的不断加剧,针对老龄化问题的研究也愈发重要,想要研究好老龄化问题,高质量的数据资料是不可或缺的一环。针对中国老龄化问题的研究,主要数据如下:
此前,连享会已介绍了关于中国健康与养老追踪调查数据 (CHARLS) 的详细数据情况和清洗过程,详见:
因此,本文主要对中国老年健康影响因素跟踪调查 (CLHLS )数据库进行介绍。相比于中国健康与养老调查数据 (CHARLS),中国老年健康调查 (CLHLS) 有自己独特的优势,具体如下:
鉴于此,笔者分享了 CLHLS 的数据介绍和常见变量的清洗处理,便于初次接触 CLHLS 的研究者对数据进行分析。
中国老年健康影响因素跟踪调查简称“中国老年健康调查”,英文缩写为 CLHLS,由北京大学健康老龄团队牵头组织,是国际国内学界公认、世界上类似调研中 80 岁以上高龄老人样本最大并有年轻老人对照组的交叉学科研究项目。
其调查范围覆盖全国 23 个省/市/自治区约 50% 的县/县级市/区,调查对象为 65 岁及以上老年人和 35-64 岁成年子女,调查问卷分为存活被访者问卷和死亡老人家属问卷两种。
其中,存活被访者问卷的调查内容包括老人及家庭基本状况、社会经济背景及家庭结构、经济来源和经济状况、健康和生活质量自评、认知功能、性格心理特征、日常活动能力、生活方式、生活照料、疾病治疗和医疗费承担。死亡老人家属问卷的调查内容包括老人死亡时间、死因等内容。
CLHLS 在 1998 年进行基线调查后,分别于 2000 年、2002 年、2005 年、2008-2009 年、2011-2012 年、2014 年和 2017-2018 年进行了跟踪调查。最近的一次跟踪调查 (2017-2018 年) 共访问 15874 名 65+ 岁老年人,收集了 2014-2018 年期间死亡的 2226 位老年人的信息。
“中国老年健康调查”累计入户访问 11.3 万人次,其中最需照料的 80 岁及以上高龄老人占总样本 67.4%,其余为较低龄老人和中年对照组。同时访问 2.89 万位 65+ 岁已死亡被访老人的直接家庭成员,收集了老人死亡前健康状况、生活质量与医疗和照料需求成本等详细数据。
2023 年 4 月 6 日中国老年健康调查 (CLHLS) 第九次调查数据发布会于武汉召开。第 9 次的调查将调查范围扩展到 27 个省市自治区。在前八次调查包括大量老人家庭结构与居住安排、婚姻状态、健康、社会经济特征等丰富信息的基础上,第 9 次调查增加了关于家庭住房养老问项和家庭金融养老储备问项,扩展了兄弟姐妹问项,目前已有 65 项与家庭直接相关问项,有的问项还包括多个子问项,第 9 次调查还增加了成年子女调查。因此,调查名称适当扩展为“中国老年健康和家庭幸福调查” (CLHLS-HF)。
根据规定,我们无法提供详细的微观数据,读者可以自行前往北京大学开放研究数据平台下载 中国老年健康与家庭幸福调查 (CLHLS-HF)。数据平台最近的一次更新是 2020 年 4 月,提供的 CLHLS 数据为 SPSS 格式。
数据库包含 16 个数据集,也可按照学科、关键词词项、提交时间筛选出自己感兴趣的数据集。
下载完成数据以后,我们还需要了解以下几点:
我们以最新的 2018 年 CLHLS 数据为例,并选取几项常用变量进行清洗处理,包括年龄、性别、教育程度、婚姻、子女数量、户口、家庭人均收入、自评健康、心理健康、 ADL 、医疗费用等。
use "2018初数据.dta" //导入数据
* 常用控制变量
* 注:8/9代表无法回答和缺失
* trueage 年龄在数据集已生成
recode a1 (1=1) (2=0), gen(gender) // 男为1,女为0
recode hukou (1=1) (2=0) // 城市为1,农村为0
recode f41 (1/2=1) (3/5=0) (8/9=.), gen(married) // 婚姻
recode a2 (1=1) (2/8=0) (9=.),gen(han) // 汉族
recode f103a3 f103b3 f103c3 f103d3 f103e3 f103f3 f103g3 f103h3 ///
f103i3 f103j3 f103k3 f103l3 f103m3 (1=1) (2=0) (9=.)
egen number_child=rowtotal (f103a3 f103b3 f103c3 f103d3 f103e3 ///
f103f3 f103g3 f103h3 f103i3 f103j3 f103k3 f103l3 f103m3),mi //子女数量
recode f1 (54 65 88 99=.),gen(edu) // 上学年限,异常值处理
recode f35 (99998=100000) (99999=.) // 家庭总收入
gen lnincome=ln(f35+1) // 收入取对数
recode f34 (1/2=1) (3/5=0) (8/9=.),gen(econ_state) // 生活是否富裕
recode d71 (1=1) (2=0) (8/9=.),gen(smoke) // 是否吸烟
recode d81 (1=1) (2=0) (8/9=.),gen(drink) // 是否饮酒
* 健康和医疗保健利用
recode e1 e2 e3 e4 e5 e6 (1=0) (2/3=1) (8/9=.)
egen adl=rowtotal(e1 e2 e3 e4 e5 e6),mi // ADL总分
recode b21 b22 b26 b34 b36 b37 b38 (8/9=.)
egen mental_health=rowtotal( b21 b22 b26 b34 b36 b37 b38 ),mi // 心理健康35分
recode b12 (1=5) (2=1) (3=3) (4=2) (5=1) (8/9=.),gen(self_health) // 自评健康
recode g14a1 (1/25=1) (8/9=.),gen(chronic) // 慢性病
recode f651a1 f651b1 f651a2 f651b2 (99=.)
rename (f651a1 f651b1 f651a2 f651b2) (outpatient_total ///
outpatient_family inpatient inpatient_family) // 门诊和住院费用
接着,我们保存特定的变量,并进行描述性统计。
keep trueage gender hukou married han number_child edu ///
lnincome econ_state smoke drink adl mental_health ///
self_health outpatient_total outpatient_family ///
inpatient inpatient_family //保存特定变量
* 描述性统计
sum trueage gender hukou married han number_child edu ///
lnincome econ_state smoke drink adl mental_health ///
self_health outpatient_total outpatient_family ///
inpatient inpatient_family
Variable | Obs Mean Std. Dev. Min Max
-------------+---------------------------------------------
trueage | 15,866 85.45601 11.70212 50 117
gender | 15,874 .436248 .4959346 0 1
hukou | 15,720 .275 .4465285 0 1
married | 15,607 .4107772 .4919907 0 1
han | 13,670 .9407462 .2361078 0 1
-------------+---------------------------------------------
number_child | 15,246 3.546832 1.724708 0 11
edu | 13,500 3.230519 4.246451 0 30
lnincome | 15,088 9.879297 1.859231 0 11.51294
econ_state | 15,584 .1923126 .39413 0 1
smoke | 15,610 .1476618 .3547757 0 1
-------------+---------------------------------------------
drink | 15,515 .1412826 .3483241 0 1
adl | 15,757 .8122104 1.674733 0 6
mental_hea~h | 14,347 20.09905 3.752115 1 35
self_health | 14,442 2.359922 1.284725 1 5
-------------+---------------------------------------------
outpatient~l | 11,941 4631.55 15145.82 0 99999
outpatient~y | 11,010 3937.033 15250.36 0 99999
inpatient | 11,580 6078.824 18209.9 0 99999
inpatient_~y | 10,681 4410.148 16223.69 0 99999
注:1.心理健康和 ADL 分数越大,预示着健康越差;
2.费用的最大值不超过100000.
还值得一提的是,相比于 CHARLS 数据库,CLHLS 数据库尚未公开城市信息,这一问题经常有人提及。
CLHLS 无法像 CFPS 数据库那样,让研究者可以通过保密机制获取城市信息。尽管如此,笔者通过文献发现,部分研究者可以通过内部权限获取到地级市信息。总而言之,CLHLS 数据的处理过程比较简单,没有复杂的问卷逻辑跳转,因此初学者可以很快上手。如上述清洗存在错误或争议,可通过邮件与我交流。
Note:产生如下推文列表的 Stata 命令为:
lianxh 调查数据, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh