CLHLS:中国老年健康影响因素跟踪调查数据清洗

发布时间:2023-05-18 阅读 783

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:李珊珊 (中国药科大学)
邮箱cpulss@163.com


目录


1. 前言

随着全球老龄化的不断加剧,针对老龄化问题的研究也愈发重要,想要研究好老龄化问题,高质量的数据资料是不可或缺的一环。针对中国老龄化问题的研究,主要数据如下:

此前,连享会已介绍了关于中国健康与养老追踪调查数据 (CHARLS) 的详细数据情况和清洗过程,详见:

因此,本文主要对中国老年健康影响因素跟踪调查 (CLHLS )数据库进行介绍。相比于中国健康与养老调查数据 (CHARLS),中国老年健康调查 (CLHLS) 有自己独特的优势,具体如下:

  • 中国老年健康调查数据除了提供宏观经济环境、微观个体健康及人口社会经济状况等数据信息,还提供了丰富全面的医学体检、死亡、医学生物指标和基因等数据信息。尤其是近些年来,随着老龄化程度的不断加剧,老年人的失能、认知、死亡等问题受到学术界的广泛关注。
  • 中国老年健康调查 (1998-2018) 作为全球规模最大的高龄老人跟踪调查项目,也是国内全国范围最早、坚持时间最长的社会科学调查,也为研究者提供了大量的跟踪样本。

鉴于此,笔者分享了 CLHLS 的数据介绍和常见变量的清洗处理,便于初次接触 CLHLS 的研究者对数据进行分析。

2. 数据库简介

中国老年健康影响因素跟踪调查简称“中国老年健康调查”,英文缩写为 CLHLS,由北京大学健康老龄团队牵头组织,是国际国内学界公认、世界上类似调研中 80 岁以上高龄老人样本最大并有年轻老人对照组的交叉学科研究项目。

其调查范围覆盖全国 23 个省/市/自治区约 50% 的县/县级市/区,调查对象为 65 岁及以上老年人和 35-64 岁成年子女,调查问卷分为存活被访者问卷和死亡老人家属问卷两种。

其中,存活被访者问卷的调查内容包括老人及家庭基本状况、社会经济背景及家庭结构、经济来源和经济状况、健康和生活质量自评、认知功能、性格心理特征、日常活动能力、生活方式、生活照料、疾病治疗和医疗费承担。死亡老人家属问卷的调查内容包括老人死亡时间、死因等内容。

CLHLS 在 1998 年进行基线调查后,分别于 2000 年、2002 年、2005 年、2008-2009 年、2011-2012 年、2014 年和 2017-2018 年进行了跟踪调查。最近的一次跟踪调查 (2017-2018 年) 共访问 15874 名 65+ 岁老年人,收集了 2014-2018 年期间死亡的 2226 位老年人的信息。

“中国老年健康调查”累计入户访问 11.3 万人次,其中最需照料的 80 岁及以上高龄老人占总样本 67.4%,其余为较低龄老人和中年对照组。同时访问 2.89 万位 65+ 岁已死亡被访老人的直接家庭成员,收集了老人死亡前健康状况、生活质量与医疗和照料需求成本等详细数据。

2023 年 4 月 6 日中国老年健康调查 (CLHLS) 第九次调查数据发布会于武汉召开。第 9 次的调查将调查范围扩展到 27 个省市自治区。在前八次调查包括大量老人家庭结构与居住安排、婚姻状态、健康、社会经济特征等丰富信息的基础上,第 9 次调查增加了关于家庭住房养老问项和家庭金融养老储备问项,扩展了兄弟姐妹问项,目前已有 65 项与家庭直接相关问项,有的问项还包括多个子问项,第 9 次调查还增加了成年子女调查。因此,调查名称适当扩展为“中国老年健康和家庭幸福调查” (CLHLS-HF)。

3. 数据准备

根据规定,我们无法提供详细的微观数据,读者可以自行前往北京大学开放研究数据平台下载 中国老年健康与家庭幸福调查 (CLHLS-HF)。数据平台最近的一次更新是 2020 年 4 月,提供的 CLHLS 数据为 SPSS 格式。

数据库包含 16 个数据集,也可按照学科、关键词词项、提交时间筛选出自己感兴趣的数据集。

下载完成数据以后,我们还需要了解以下几点:

  • 受访者 ID 由“省份编码+编号+首次访问的年份”组成。
  • 以 "r" 为首字母的变量,用来区别是由样本老人回答还是由代答者代答。
  • 以 1998-2018 年跟踪调查数据为例,带有 _0、_2、_5、_8、_11、_14、_18 等表明年份的后缀的变量名代表那些在 2000、2002、2005、2008、2011、2014 和 2018 年仍然存活并且再次接受调查的受访者变量。相应地,带有 d0、d2、d5、d8、d11、d14、d18 前缀的变量代表那些在 1998-2000、2000-2002、2002-2005、2005-2008、2008-2011、2011-2014 和 2014-2018 年调查期间死亡的被访者变量。
  • 在使用专题数据库时,用户可以以被访老人样本 ID 号为基准,将社区数据、生物医学指标数据与同调查年份的 CLHLS 老龄跟踪数据进行匹配使用。

4. 数据清洗

我们以最新的 2018 年 CLHLS 数据为例,并选取几项常用变量进行清洗处理,包括年龄、性别、教育程度、婚姻、子女数量、户口、家庭人均收入、自评健康、心理健康、 ADL 、医疗费用等。

use "2018初数据.dta"  //导入数据

* 常用控制变量
* 注:8/9代表无法回答和缺失
* trueage 年龄在数据集已生成
recode a1 (1=1) (2=0), gen(gender)  // 男为1,女为0
recode hukou (1=1) (2=0)            // 城市为1,农村为0
recode f41 (1/2=1) (3/5=0) (8/9=.), gen(married) // 婚姻
recode a2 (1=1) (2/8=0) (9=.),gen(han)           // 汉族
recode f103a3 f103b3 f103c3 f103d3 f103e3 f103f3 f103g3 f103h3 ///
    f103i3 f103j3 f103k3 f103l3 f103m3 (1=1) (2=0) (9=.) 
egen number_child=rowtotal (f103a3 f103b3 f103c3 f103d3 f103e3 ///
    f103f3 f103g3 f103h3 f103i3 f103j3 f103k3 f103l3 f103m3),mi //子女数量
recode f1 (54 65 88 99=.),gen(edu)   // 上学年限,异常值处理
recode f35 (99998=100000) (99999=.)  // 家庭总收入
gen lnincome=ln(f35+1) // 收入取对数
recode f34 (1/2=1) (3/5=0) (8/9=.),gen(econ_state) // 生活是否富裕
recode d71 (1=1) (2=0) (8/9=.),gen(smoke)          // 是否吸烟
recode d81 (1=1) (2=0) (8/9=.),gen(drink)          // 是否饮酒

* 健康和医疗保健利用
recode e1 e2 e3 e4 e5 e6 (1=0) (2/3=1) (8/9=.)
egen adl=rowtotal(e1 e2 e3 e4 e5 e6),mi    // ADL总分
recode  b21 b22 b26 b34 b36 b37 b38 (8/9=.)
egen mental_health=rowtotal( b21 b22 b26 b34 b36 b37 b38 ),mi     // 心理健康35分
recode b12 (1=5) (2=1) (3=3) (4=2) (5=1) (8/9=.),gen(self_health) // 自评健康
recode g14a1 (1/25=1) (8/9=.),gen(chronic) // 慢性病
recode f651a1 f651b1 f651a2 f651b2 (99=.)
rename (f651a1 f651b1 f651a2 f651b2) (outpatient_total ///
    outpatient_family inpatient inpatient_family)       // 门诊和住院费用

接着,我们保存特定的变量,并进行描述性统计。

keep trueage gender hukou married han number_child edu ///
	lnincome econ_state smoke drink adl mental_health  ///
	self_health  outpatient_total outpatient_family    ///
	inpatient inpatient_family    //保存特定变量

* 描述性统计
sum trueage gender hukou married han number_child edu ///
	lnincome econ_state smoke drink adl mental_health ///
	self_health outpatient_total outpatient_family    ///
	inpatient inpatient_family  

    Variable |     Obs      Mean   Std. Dev.  Min       Max
-------------+---------------------------------------------
     trueage |  15,866  85.45601   11.70212    50       117
      gender |  15,874   .436248   .4959346     0         1
       hukou |  15,720      .275   .4465285     0         1
     married |  15,607  .4107772   .4919907     0         1
         han |  13,670  .9407462   .2361078     0         1
-------------+---------------------------------------------
number_child |  15,246  3.546832   1.724708     0        11
         edu |  13,500  3.230519   4.246451     0        30
    lnincome |  15,088  9.879297   1.859231     0  11.51294
  econ_state |  15,584  .1923126     .39413     0         1
       smoke |  15,610  .1476618   .3547757     0         1
-------------+---------------------------------------------
       drink |  15,515  .1412826   .3483241     0         1
         adl |  15,757  .8122104   1.674733     0         6
mental_hea~h |  14,347  20.09905   3.752115     1        35
 self_health |  14,442  2.359922   1.284725     1         5
-------------+---------------------------------------------
outpatient~l |  11,941   4631.55   15145.82     0     99999
outpatient~y |  11,010  3937.033   15250.36     0     99999
   inpatient |  11,580  6078.824    18209.9     0     99999
inpatient_~y |  10,681  4410.148   16223.69     0     99999

注:1.心理健康和 ADL 分数越大,预示着健康越差;
2.费用的最大值不超过100000.

5. 结束语

还值得一提的是,相比于 CHARLS 数据库,CLHLS 数据库尚未公开城市信息,这一问题经常有人提及。

CLHLS 无法像 CFPS 数据库那样,让研究者可以通过保密机制获取城市信息。尽管如此,笔者通过文献发现,部分研究者可以通过内部权限获取到地级市信息。总而言之,CLHLS 数据的处理过程比较简单,没有复杂的问卷逻辑跳转,因此初学者可以很快上手。如上述清洗存在错误或争议,可通过邮件与我交流。

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 调查数据, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh