CGSS:中国综合社会调查数据清洗

发布时间:2023-04-30 阅读 1020

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:李珊珊 (中国药科大学)
邮箱cpulss@163.com


目录


1. CGSS 数据库介绍

前不久,中国调查与数据中心公众号发布了最新的 2021 年 CGSS 调查数据。据笔者所知,CGSS 和 CFPS 是国内少有的公布疫情相关信息的数据库。在本文中,笔者将以 2021 年 CGSS 为例进行数据清洗,试图帮助大家了解 2021 年 CGSS 的数据质量和疫情期间某些变量的分布。

CGSS,全称是 中国综合社会调查 (Chinese General Social Survey),始于 2003 年,是我国最早的全国性、综合性、连续性的学术调查项目。CGSS 通过年度调查数据对中国社会全面、系统地描述和分析,揭示中国社会变迁,包括经济、政治、社会、文化等各个方面,制度、结构、行为、态度等各个层次发展方向和趋势;揭示社会成员、社会群体的相对地位、角色和观念的变化,描述和分析中国社会阶层和社会各群体的实际状况。

与其他数据库十分相似,CGSS 并非中国独有,其与美国的 GSS (General Social Survey) 相对应。2004 年,CGSS 项目组还联合日本综合社会调查 (JGSS) 项目组、韩国综合社会调查(KGSS)项目组、中国台湾社会变迁调查 (TSCS) 项目组发起东亚社会调查 (East Asian Social Survey,EASS) 计划。

大致检索知网,目前使用 CGSS 数据的相关文献的关注点围绕在社会态度 (包括幸福感、社会信任),以及 (收入) 机会不平等。例如:

  • 刘军强, 熊谋林, 苏阳. 经济增长时期的国民幸福感——基于CGSS数据的追踪研究[J]. 中国社会科学, 2012, 204(12):82-102+207-208. -PDF-
  • 何晓斌, 董寅茜. 工作权威、工作自主性与主观阶层认同形成——基于创业者劳动过程的实证研究[J]. 社会学研究,2021, 36(05):180-202+230. -PDF-
  • 李涛, 周君雅, 金星晔等. 社会资本的决定因素:基于主观经济地位视角的分析[J]. 经济研究, 2021, 56(01):191-205. -PDF-
  • 李莹, 吕光明. 中国机会不平等的生成源泉与作用渠道研究[J]. 中国工业经济, 2019, 378(09):60-78. -PDF-
  • 万广华, 张彤进. 机会不平等与中国居民主观幸福感[J]. 世界经济, 2021, 44(05):203-228. -PDF-
  • 左翔, 李明. 环境污染与居民政治态度[J]. 经济学(季刊), 2016, 15(04):1409-1438. -PDF-

2. 数据清洗

按照相关要求,我们无权共享 CGSS 数据。不过,CGSS 数据都已在 中国学术调查数据资料库 (China National Survey Data Archive,CNSDA) 上发布,注册下载十分简单,因此不再阐述。

我们以最新的 2021 年 CGSS 数据为例,并选取几项常用变量进行清洗清洗演示。但需要提醒的是,由于疫情影响,相比于前几期,2021 年 CGSS 样本量大幅降低。

2021 年 CGSS 数据在全国范围内共完成有效样本 8148 份;发布的数据版本里包含 700 个变量;2021 年 CGSS 的核心模块和主题模块内容询问所有的调查对象,附加的东亚社会调查 (EASS) 的健康模块、国际社会调查项目 (ISSP) 的健康模块、国际社会调查项目 (ISSP) 的环境模块各随机抽取三分之一的调查对象回答。

use CGSS2021.dta,clear  //导入数据
* 家庭规模
g size_family= A1+1  
* 性别
recode A2 (1=1) (2=0),gen(gender) 
* 年龄 
g age=2021-A3_1  
* 民族
recode A4 (1=1) (else=0),gen(nation) 
* 教育程度
recode A7a (14=.),gen(edu)
* 个人收入
recode A8a (9999996 9999997 9999998 9999999=.), gen(income)
* 家庭收入
recode A62 (9999996 9999997 9999998 9999999=.), gen(income_famliy)
* 自评健康
recode A15 (98 99=.),gen(health)
* 户口
recode A18 (1=1) (6/7=.) (else=0),gen(hukou)
* 婚姻
recode A69 (1 2 6 7=0) (3/5=1),gen(married)
* 随机使用两种幸福量表
recode A36 (98 99=.),gen(happiness)
recode D1 (1/2=5) (3=4) (4=3) (5=2) (6/7=1) (else=.)
replace happiness=D1 if mi(happiness)  
* 公平感
recode A35 (98 99=.),gen(fair) 

上述是常用的控制变量,整体清洗比较简单。另外,CGSS 数据还询问了父母的相关职业,大家如果感兴趣,可根据回答自行重新编码。2022 年,贾瑞雪老师就曾利用 CGSS 数据库的父母职业背景问题,最后研究发表在经济学顶刊 Journal of Development Economics 上。

2021 年 CGSS 数据还询问了受访者不少有关新冠疫情影响的问题,笔者选取了几项问题,向大家展示出来,具体如下。

. tab happiness
  RECODE of |
  A36 (A36. |
     总的来 |
     说,您 |
     觉得您 |
     的生活 |
     是否幸 |
      福?) |   Freq.     Percent        Cum.
------------+--------------------------------
          1 |     129        1.59        1.59
          2 |     326        4.01        5.60
          3 |   1,071       13.17       18.77
          4 |   4,480       55.10       73.87
          5 |   2,125       26.13      100.00
------------+--------------------------------
      Total |   8,131      100.00

. tab A35
                   A35. |
        总的来说,您认为 |
        当今的社会公不公 |
                   平? |   Freq.   Percent      Cum.
----------------- ------+-----------------------------
              完全不公平 |     346      4.25      4.25
              比较不公平 |   1,131     13.88     18.13
说不上公平但也不能说不公平 |   1,735     21.29     39.42
                比较公平 |   4,233     51.95     91.37
                完全公平 |     645      7.92     99.29
                  不知道 |      47      0.58     99.86
                拒绝回答 |      11      0.14    100.00
------------------------+-----------------------------
                 Total |      8,148   100.00

. tab V1
    V1.目前 |
     ,您有 |
     没有接 |
     种新冠 |
     疫苗? |   Freq.   Percent      Cum.
------------+----------------------------
     接种了 |   5,982     73.42     73.42
     没接种 |   2,155     26.45     99.86
   不愿回答 |      11      0.14    100.00
-----------+----------------------------
     Total |   8,148    100.00
   
. tab D31
            D31.您目前的就业状况与新冠 |
            疫情之前相比,下列哪项描述 |
                                     |  Freq.   Percent    Cum.
-------------------------------------+-------------------------
       我在疫情前没有工作,现在也没工作 |  3,108     38.14   38.14
             我疫情前后的工作没有变化  |  4,252     52.18   90.33
  我因为疫情失去了工作,现在有了一份新的 |    135      1.66   91.99
  我因为疫情失去了工作,现在也没找到新的 |     99      1.22   93.20
      我在疫情前没有工作,现在有了工作  |    110      1.35   94.55
        我换工作或离职的原因与疫情无关  |    314      3.85   98.40
                          无法选择    |    116      1.42   99.83
                          拒绝回答    |     14      0.17  100.00
-------------------------------------+-------------------------
                           Total     |   8,148    100.00

. tab D32
    D32.您家 |
    目前的收 |
    入与新冠 |
    疫情之前 |
    相比有什 |
    么变化? |  Freq.   Percent     Cum.
------------+--------------------------
  增长了很多 |     77      0.95     0.95
  增长了一点 |    532      6.53     7.47
和疫情前一样 |  4,992     61.27    68.74
  下降了一点 |  1,546     18.97    87.71
  下降了很多 |    850     10.43    98.15
    无法选择 |    135      1.66    99.80
    拒绝回答 |     16      0.20   100.00
------------+--------------------------
       Total |  8,148    100.00

. tab D33
   D33.与新 |
     冠疫情 |
     之前相 |
     比,您 |
     目前与 |
     家人或 |
     朋友见 |
     面的频 |
       率有 |   Freq.  Percent     Cum.
------------+--------------------------
     少很多 |   1,595    19.58    19.58
     少一点 |   2,490    30.56    50.14
   基本一样 |   3,677    45.13    95.26
     多一点 |     266     3.26    98.53
     多很多 |      79     0.97    99.50
   无法选择 |      33     0.41    99.90
   拒绝回答 |       8     0.10   100.00
-----------+--------------------------
     Total |   8,148   100.00

. tab E41_SQ001 
   E41.您认 |
     为自己 |
     感染新 |
     冠的可 |
     能性有 |
     多大: |
           |  Freq.  Percent      Cum.
-----------+--------------------------
 1 极有可能 |     85     3.13      3.13
         2 |     87     3.20      6.33
         3 |    160     5.89     12.22
         4 |    289    10.64     22.86
         5 |    309    11.37     34.23
         6 |    724    26.65     60.88
 7 极不可能 |  1,063    39.12    100.00
-----------+--------------------------
     Total |   2,717   100.00

. tab E38
    E38.您有 |
    多担心感 |
    染上新冠 |
         ? |  Freq.   Percent     Cum.
------------+--------------------------
    非常担心 |    599     22.05    22.05
    有些担心 |    730     26.87    48.91
    不太担心 |    810     29.81    78.73
一点也不担心 |    578     21.27   100.00
------------+--------------------------
     Total |  2,717     100.00

具体来看,疫情期间,国民幸福感仍比较高,不幸福的人群仅占比 5.6%;认为社会不公平的人群占比 18% 左右;近 30% 人群的工资因疫情出现下降。对于其他指标的描述,笔者不再详细阐述。进一步,笔者将“感染新冠的担心程度”和“接种疫苗”联系起来,做了一个简单的回归分析。

* 是否接种疫苗
recode V1 (2=0) (99=.),gen(vaccine)  
* 感染的担心程度
recode E38 (1=4) (2=3) (3=2) (4=1),gen(worry_infection)
* 直接按照连续变量回归
. reg vaccine worry_infection gender age edu health hukou married income, r


Linear regression                               Number of obs     =      2,436
                                                F(8, 2427)        =      37.93
                                                Prob > F          =     0.0000
                                                R-squared         =     0.1172
                                                Root MSE          =     .41716
---------------------------------------------------------------------------------
                |               Robust
        vaccine |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
----------------+----------------------------------------------------------------
worry_infection |   .0304406   .0081609     3.73   0.000     .0144375    .0464437
         gender |  -.0072514   .0172919    -0.42   0.675    -.0411599    .0266571
            age |  -.0063479   .0006743    -9.41   0.000    -.0076703   -.0050256
            edu |   .0059331   .0034769     1.71   0.088    -.0008848     .012751
         health |   .0393772   .0088618     4.44   0.000     .0219998    .0567547
          hukou |   .0745892   .0203274     3.67   0.000     .0347284      .11445
        married |    .096852   .0198568     4.88   0.000     .0579139    .1357901
         income |  -2.24e-08   3.50e-08    -0.64   0.521    -9.10e-08    4.61e-08
          _cons |   .7100831   .0745277     9.53   0.000     .5639386    .8562276
---------------------------------------------------------------------------------

由上述结果可知,控制个人特征的情况下,越担心感染的个体,接种疫苗的可能性越高。当然,需要提醒的是,上述的回归结果,笔者仅仅是为了趣味性,不能作为严格意义上的计量考察,现实意义仍需要慎重对待。

上述 CGSS 数据清洗和实证分析尚存诸多不足,如发现明显错误,欢迎通过邮件与我沟通。

3. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 调查, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxhsongbl 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh