Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:李珊珊 (中国药科大学)
邮箱:cpulss@163.com
目录
前不久,中国调查与数据中心公众号发布了最新的 2021 年 CGSS 调查数据。据笔者所知,CGSS 和 CFPS 是国内少有的公布疫情相关信息的数据库。在本文中,笔者将以 2021 年 CGSS 为例进行数据清洗,试图帮助大家了解 2021 年 CGSS 的数据质量和疫情期间某些变量的分布。
CGSS,全称是 中国综合社会调查 (Chinese General Social Survey),始于 2003 年,是我国最早的全国性、综合性、连续性的学术调查项目。CGSS 通过年度调查数据对中国社会全面、系统地描述和分析,揭示中国社会变迁,包括经济、政治、社会、文化等各个方面,制度、结构、行为、态度等各个层次发展方向和趋势;揭示社会成员、社会群体的相对地位、角色和观念的变化,描述和分析中国社会阶层和社会各群体的实际状况。
与其他数据库十分相似,CGSS 并非中国独有,其与美国的 GSS (General Social Survey) 相对应。2004 年,CGSS 项目组还联合日本综合社会调查 (JGSS) 项目组、韩国综合社会调查(KGSS)项目组、中国台湾社会变迁调查 (TSCS) 项目组发起东亚社会调查 (East Asian Social Survey,EASS) 计划。
大致检索知网,目前使用 CGSS 数据的相关文献的关注点围绕在社会态度 (包括幸福感、社会信任),以及 (收入) 机会不平等。例如:
按照相关要求,我们无权共享 CGSS 数据。不过,CGSS 数据都已在 中国学术调查数据资料库 (China National Survey Data Archive,CNSDA) 上发布,注册下载十分简单,因此不再阐述。
我们以最新的 2021 年 CGSS 数据为例,并选取几项常用变量进行清洗清洗演示。但需要提醒的是,由于疫情影响,相比于前几期,2021 年 CGSS 样本量大幅降低。
2021 年 CGSS 数据在全国范围内共完成有效样本 8148 份;发布的数据版本里包含 700 个变量;2021 年 CGSS 的核心模块和主题模块内容询问所有的调查对象,附加的东亚社会调查 (EASS) 的健康模块、国际社会调查项目 (ISSP) 的健康模块、国际社会调查项目 (ISSP) 的环境模块各随机抽取三分之一的调查对象回答。
use CGSS2021.dta,clear //导入数据
* 家庭规模
g size_family= A1+1
* 性别
recode A2 (1=1) (2=0),gen(gender)
* 年龄
g age=2021-A3_1
* 民族
recode A4 (1=1) (else=0),gen(nation)
* 教育程度
recode A7a (14=.),gen(edu)
* 个人收入
recode A8a (9999996 9999997 9999998 9999999=.), gen(income)
* 家庭收入
recode A62 (9999996 9999997 9999998 9999999=.), gen(income_famliy)
* 自评健康
recode A15 (98 99=.),gen(health)
* 户口
recode A18 (1=1) (6/7=.) (else=0),gen(hukou)
* 婚姻
recode A69 (1 2 6 7=0) (3/5=1),gen(married)
* 随机使用两种幸福量表
recode A36 (98 99=.),gen(happiness)
recode D1 (1/2=5) (3=4) (4=3) (5=2) (6/7=1) (else=.)
replace happiness=D1 if mi(happiness)
* 公平感
recode A35 (98 99=.),gen(fair)
上述是常用的控制变量,整体清洗比较简单。另外,CGSS 数据还询问了父母的相关职业,大家如果感兴趣,可根据回答自行重新编码。2022 年,贾瑞雪老师就曾利用 CGSS 数据库的父母职业背景问题,最后研究发表在经济学顶刊 Journal of Development Economics 上。
2021 年 CGSS 数据还询问了受访者不少有关新冠疫情影响的问题,笔者选取了几项问题,向大家展示出来,具体如下。
. tab happiness
RECODE of |
A36 (A36. |
总的来 |
说,您 |
觉得您 |
的生活 |
是否幸 |
福?) | Freq. Percent Cum.
------------+--------------------------------
1 | 129 1.59 1.59
2 | 326 4.01 5.60
3 | 1,071 13.17 18.77
4 | 4,480 55.10 73.87
5 | 2,125 26.13 100.00
------------+--------------------------------
Total | 8,131 100.00
. tab A35
A35. |
总的来说,您认为 |
当今的社会公不公 |
平? | Freq. Percent Cum.
----------------- ------+-----------------------------
完全不公平 | 346 4.25 4.25
比较不公平 | 1,131 13.88 18.13
说不上公平但也不能说不公平 | 1,735 21.29 39.42
比较公平 | 4,233 51.95 91.37
完全公平 | 645 7.92 99.29
不知道 | 47 0.58 99.86
拒绝回答 | 11 0.14 100.00
------------------------+-----------------------------
Total | 8,148 100.00
. tab V1
V1.目前 |
,您有 |
没有接 |
种新冠 |
疫苗? | Freq. Percent Cum.
------------+----------------------------
接种了 | 5,982 73.42 73.42
没接种 | 2,155 26.45 99.86
不愿回答 | 11 0.14 100.00
-----------+----------------------------
Total | 8,148 100.00
. tab D31
D31.您目前的就业状况与新冠 |
疫情之前相比,下列哪项描述 |
| Freq. Percent Cum.
-------------------------------------+-------------------------
我在疫情前没有工作,现在也没工作 | 3,108 38.14 38.14
我疫情前后的工作没有变化 | 4,252 52.18 90.33
我因为疫情失去了工作,现在有了一份新的 | 135 1.66 91.99
我因为疫情失去了工作,现在也没找到新的 | 99 1.22 93.20
我在疫情前没有工作,现在有了工作 | 110 1.35 94.55
我换工作或离职的原因与疫情无关 | 314 3.85 98.40
无法选择 | 116 1.42 99.83
拒绝回答 | 14 0.17 100.00
-------------------------------------+-------------------------
Total | 8,148 100.00
. tab D32
D32.您家 |
目前的收 |
入与新冠 |
疫情之前 |
相比有什 |
么变化? | Freq. Percent Cum.
------------+--------------------------
增长了很多 | 77 0.95 0.95
增长了一点 | 532 6.53 7.47
和疫情前一样 | 4,992 61.27 68.74
下降了一点 | 1,546 18.97 87.71
下降了很多 | 850 10.43 98.15
无法选择 | 135 1.66 99.80
拒绝回答 | 16 0.20 100.00
------------+--------------------------
Total | 8,148 100.00
. tab D33
D33.与新 |
冠疫情 |
之前相 |
比,您 |
目前与 |
家人或 |
朋友见 |
面的频 |
率有 | Freq. Percent Cum.
------------+--------------------------
少很多 | 1,595 19.58 19.58
少一点 | 2,490 30.56 50.14
基本一样 | 3,677 45.13 95.26
多一点 | 266 3.26 98.53
多很多 | 79 0.97 99.50
无法选择 | 33 0.41 99.90
拒绝回答 | 8 0.10 100.00
-----------+--------------------------
Total | 8,148 100.00
. tab E41_SQ001
E41.您认 |
为自己 |
感染新 |
冠的可 |
能性有 |
多大: |
| Freq. Percent Cum.
-----------+--------------------------
1 极有可能 | 85 3.13 3.13
2 | 87 3.20 6.33
3 | 160 5.89 12.22
4 | 289 10.64 22.86
5 | 309 11.37 34.23
6 | 724 26.65 60.88
7 极不可能 | 1,063 39.12 100.00
-----------+--------------------------
Total | 2,717 100.00
. tab E38
E38.您有 |
多担心感 |
染上新冠 |
? | Freq. Percent Cum.
------------+--------------------------
非常担心 | 599 22.05 22.05
有些担心 | 730 26.87 48.91
不太担心 | 810 29.81 78.73
一点也不担心 | 578 21.27 100.00
------------+--------------------------
Total | 2,717 100.00
具体来看,疫情期间,国民幸福感仍比较高,不幸福的人群仅占比 5.6%;认为社会不公平的人群占比 18% 左右;近 30% 人群的工资因疫情出现下降。对于其他指标的描述,笔者不再详细阐述。进一步,笔者将“感染新冠的担心程度”和“接种疫苗”联系起来,做了一个简单的回归分析。
* 是否接种疫苗
recode V1 (2=0) (99=.),gen(vaccine)
* 感染的担心程度
recode E38 (1=4) (2=3) (3=2) (4=1),gen(worry_infection)
* 直接按照连续变量回归
. reg vaccine worry_infection gender age edu health hukou married income, r
Linear regression Number of obs = 2,436
F(8, 2427) = 37.93
Prob > F = 0.0000
R-squared = 0.1172
Root MSE = .41716
---------------------------------------------------------------------------------
| Robust
vaccine | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------------+----------------------------------------------------------------
worry_infection | .0304406 .0081609 3.73 0.000 .0144375 .0464437
gender | -.0072514 .0172919 -0.42 0.675 -.0411599 .0266571
age | -.0063479 .0006743 -9.41 0.000 -.0076703 -.0050256
edu | .0059331 .0034769 1.71 0.088 -.0008848 .012751
health | .0393772 .0088618 4.44 0.000 .0219998 .0567547
hukou | .0745892 .0203274 3.67 0.000 .0347284 .11445
married | .096852 .0198568 4.88 0.000 .0579139 .1357901
income | -2.24e-08 3.50e-08 -0.64 0.521 -9.10e-08 4.61e-08
_cons | .7100831 .0745277 9.53 0.000 .5639386 .8562276
---------------------------------------------------------------------------------
由上述结果可知,控制个人特征的情况下,越担心感染的个体,接种疫苗的可能性越高。当然,需要提醒的是,上述的回归结果,笔者仅仅是为了趣味性,不能作为严格意义上的计量考察,现实意义仍需要慎重对待。
上述 CGSS 数据清洗和实证分析尚存诸多不足,如发现明显错误,欢迎通过邮件与我沟通。
Note:产生如下推文列表的 Stata 命令为:
lianxh 调查, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh