CHARLS-中国健康与养老调查数据库清洗(一)

发布时间:2022-03-24 阅读 10102

CHARLS中国健康与养老调查数据清洗(一)

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

宋森安, 西南财经大学, songsean@88.com
李青塬, 广东工业大学, qingyuanli95@gmail.com


目录


注: 本文仅用于学术探讨,不涉及 CHARLS 原始微观数据展示,如需使用,请参考官网指引,自行注册下载!
CHARLS 用户条款: 不得将 CHARLS 数据二次发布、转让、出售、出租、租借、借贷或以其他方式赠予他人)

1. 引言

此前,连享会已介绍过中国家庭金融调查( CHFS )以及中国家庭追踪调查 ( CFPS ) 的清洗过程。事实上,中国健康与养老调查数据库( China Health and Retirement Longitudinal Study,以下简称为“ CHARLS ”)也是国内外学者使用频次极高的数据库,尤其在劳动经济学和健康经济学领域。全球进入 21 世纪以来,有两大转型,一是在健康方面,慢性疾病越来越多。二是人口结构方面,老年人口规模扩张。所以,随着老年人口越来越多,自然而然研究这个群体及其健康问题就变得越来越重要。同时,在十四五规划和 2035 远景目标纲要中,“优先发展农业农村,全面推进乡村振兴” 成为重要组成部分,研究乡村振兴问题也越来越重要。CHARLS 独有丰富的中国农村家庭厚数据,历久弥香,是研究乡土中国与乡村振兴的宝贵素材。笔者以 CHARLS 数据为例 ,尝试分享 CHARLS 的清洗工作。

根据官网介绍,CHALRS 旨在收集一套代表中国 45 岁及以上中老年人家庭和个人的高质量微观数据,用以分析我国人口老龄化问题,推动老龄化问题的跨学科研究。CHARLS 全国基线调查于 2011 年开展,覆盖 150 个县级单位,450 个村级单位,约 1 万户家庭中的 1.7 万人。这些样本以后每两到三年追踪一次,调查结束一年后,数据将对学术界展开。


图 1 CHARLS 官网

CHARLS 问卷内容包括:个人基本信息,家庭结构和经济支持,健康状况,体格测量,医疗服务利用和医疗保险,工作、退休和养老金、收入、消费、资产,以及社区基本情况等。

CHARLS 曾于 2008 年在分别代表我国东西部典型国情的浙江、甘肃两省开展预调查;全国基线调查于 2011 年开展,于 2011、2013、2015 和 2018 年分别在全国 28 个省(自治区、直辖市)的 150 个县、450 个社区(村)开展调查访问,至 2018 年全国追访完成时,其样本已覆盖总计 1.24 万户家庭中的 1.9 万名受访者。

此外, CHARLS 还曾在 2014 年组织并实施了“中国居民生命历程调查”、2016 年开展“共和国初期基层经济历史调查”两项全国性专项访问,亦完全覆盖上述样本地区。2017 年在北京和天津两地开展省级代表性抽样,调查访问对象扩大到家户中的全年龄样本。

但 2016 年、2017 年、2020 年的调查数据在官网是无法获取的。 根据 CHARLS 官方公众号介绍,第五轮全国调查工作在 2021 年开展,但受疫情影响,中途不得不暂停(预计 2022 年暑期继续开展)。因此,第五轮调查的数据情况到底如何,以及何时发布暂不清楚。


图 2 HRS 数据

此外,国际上存在与 CHARLS 类似的调查(例如美国的 HRS ),调查指标具有一定的相似性。2015 年,NIA (National Institute on Aging,美国国家老龄化研究所)为了方便公众使用数据、促进老年人口的健康和社会经济活动状况的跨国横截面比较,整合了多国的老年健康和养老追踪调查数据资源,推出了网站-The Gateway to Global Aging Data (网站链接: http://gateway.usc.edu/ )。

2. 注册与下载

如果您还未注册,可通过 http://charls.pku.edu.cn/index.htm 进入官网,点击主页右上方的“注册”连接进行注册,注册时需要在网站上签署用户数据使用协议并提供你的个人信息供核查使用。

注:CHARLS 有时候会打不开,实属正常情况。


图 3 CHARLS 注册

确认 Email 信息后,注册完成,即可进入 CHARLS 下载界面。


图 4 CHARLS 注册

需要某年的数据,点击右侧的申请数据即可,申请一般在3个工作日内得到是否批准的回复。


图 5 CHARLS 数据

3. 常见问题

以下几个问题,主要基于笔者清理过程中遇到的问题以及网络论坛上的常见问题。

3.1 城市信息


图 6 城市信息

CHARLS 在 2011 年、2013 年、以及 2014 年(生命历程调查)公开过个体的城市信息(具体的数据集名称为 PSU.dta ),包括省份和地级市名称(注:原始数据可能乱码,请自行参考连享会既往推文)。尤其在 2014 年的生命历程调查数据中,详细公开了个体曾经去过的地级市以及相应的流动时间、原因(具体数据集名称为 Residence.dta )。


图 7 城市信息

PSU 给出的是具体城市名称,生命历程调查中给出的是区划代码,需要与统计局的区划代码匹配(前四位数字)。区划代码的访问链接如下:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2011/index.html


图 8 区划代码

2015 年后不再公布 PSU 数据集。尽管 CHARLS 在扩大调查人群,但 PSU 信息依旧可以继续沿用。或者说,调查的地区不变。目前,大多数微观调查数据库基本不公开个体的城市信息,使用起来较为麻烦, CHARLS 无疑为研究者提供了便利。

3.2 调查时间


图 9 调查时间

CHARLS 只公开调查年份和月份,但没有具体日期(数据集为 Sample_Infor.dta )。同时,要注意的是,CHARLS 部分调查时间不仅限于当年。例如,2011 年 CHARLS 调查之中,部分人群的调查时间在 2012 年。因此,在利用年份计算时,不可笼统使用统一的年份。

3.3 Harmonized CHARLS

如前所述,CHARLS 是一个国际性的数据库,是全球老龄化人口调查数据平台的一部分。每年公开数据后,专门有研究人员对 CHALRS 既往数据进行清洗,将整合成一个数据集—— Harmonized CHARLS ( https://g2aging.org/?section=downloads )。


图 10 Harmonized CHARLS

Harmonized CHARLS 数据集可直接在 CHARLS 官网下载,包括 Documentation related to data using 、Codes 以及 Data Files,可以看到具体的清理过程,可信度很高!Harmonized CHARLS 几乎给出了问卷中的所有变量,很大程度上减轻我们的清洗工作。如果觉得某个变量清洗存在错误或不合适,大家可直接在其基础上再清洗。 目前,Harmonized CHARLS 已更新到 Version D,整合了 2011 年、2013 年、2015 年、2018 年以及生命历程调查数据。


图 11 harmonized CHARLS 版本

同时注意,如果实证研究过程中使用了 Harmonized CHARLS 数据集,请注明其来源,以视对他人知识成果的尊重与保护。

3.4 保险

清理过程中发现 2015 CHARLS 数据中医保类型无法准确识别,同时看到不少同学也反映过该情况。


图 12 保险数据

图 13 医疗保险

具体解决办法,可参考 Harmonized CHARLS 问卷( 191 页):即 EA001_W3_2_i_ 或 EA001_W3_3_i_ 取 1 ,即可视为参加该医保类型。


图 14 CHARLS 问卷

3.5 收入


图 15 总收入

事实上,很多老年人是没有固定收入的,波动较大且城乡收入差距大,但家庭收入水平是一个衡量社会经济特征的重要变量。刘畅等(2017)在《管理世界》的文章中说明了各个变量在问卷中的编码(但仍不够透明)。


图 16 家庭总收入

已有文献在如何计算家庭收入方面是比较模糊的;另一方面,CHARLS 中的收入项目较复杂,且每年也在调整,需要综合整个问卷计算。Harmonized CHARLS 计算家庭收入时,纳入了众多收入选项,最后的收入还包含“负值”。而相比于家庭收入,家庭消费的计算较为简单,也是一个很好的衡量社会经济地位的变量。尤其在研究农村地区时,可以将家庭人均消费作为家庭人均收入的替代变量,这也在一些论文中得以验证( Zhang et al., 2017 )。

3.6 体检数据


图 17 体检数据

2011 年、2013 年、2015 年包含有体检数据,但 2018 年没有体检数据。

4. 结束语

CHARLS 数据清洗分为上、下两篇推文。上篇介绍 CHARLS 的一些概况、下载以及可能碰到的问题,下篇详细讲解 CHARLS 中常用变量的清洗。CHARLS 数据好比一座巨大的金矿,初次接触 CHARLS 数据的朋友可能存在畏难情绪,感到无从下手。要想从 CHARLS 数据中挖到金矿,一方面,我们需要最重要的是一颗不畏惧 CHARLS 的心,抓住我们所研究问题的主要矛盾及主要的矛盾方面,去粗取精,去伪存真。另一方面,实践出真知,深处看中国。如果有机会,推荐参与 CHARLS 数据收集,进行实地调研,理解每个数据背后都有一个故事,我们就会有一颗爱上 CHARLS 的心,可能更容易挖到金矿。笔者的数据功底尚浅,如有错误,还请谅解,本文仅为抛砖引玉。欢迎通过邮件与我们沟通、探讨。

5. 参考文献

  • 中国健康与养老追踪调查 (pku.edu.cn)
  • CHARLS数据获取常见问题
  • https://mp.weixin.qq.com/s/zHllt2U-r4YUiibSvM2IJQ
  • https://mp.weixin.qq.com/s/D6C0o4842kj7OnOemDYHLg
  • Gateway to Global Aging Data (g2aging.org)
  • 刘畅,易福金,徐志刚.父母健康:金钱和时间孰轻孰重?——农村子女外出务工影响的再审视[J].管理世界,2017,No.286(07):74-87.DOI:10.19744/j.cnki.11-1235/f.2017.07.007.
  • Zhang, Chuanchuan, et al. "Health insurance and health care among the mid‐aged and older Chinese: Evidence from the national baseline survey of CHARLS." Health economics 26.4 (2017): 431-449.

6. 相关推文

Note:产生如下推文列表的命令为:lianxh 数据处理 CHFS CHARLS CFPS, m

安装最新版 lianxh 命令:ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh