锚定情境法(二):如何合理选择情境题?

发布时间:2020-10-27 阅读 2323

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者: 张沛康 (北京大学, patrick.zhang@pku.edu.cn)

连享会 Stata 暑期班-论文班助教

Source: 以下内容源自 King G 和 Wand J (2007) 以及 Wand J, King G 和 Lau O (2011)


目录


Notes: 以下部分需要用到 R,有关 R 的安装和介绍,参见:Rcall:Stata 与 R 的无缝对接 ( 微信版 )。

1. 背景

在第一期关于锚定情境法的推文 (锚定情境法(一):有效控制变量自评偏差, 微信版) 中,我们对锚定情境法的含义、应用及注意事项作了简要的介绍。在本期我们将介绍如何选择合适的情境题。当调查数据有很多道情境题时,我们可能会思考,是否要把所有情景题都进行分析?毕竟无论是采用参数法还是非参数法,情境题数量过多会增加分析的困难性。且有些情境题之间可能会包含相同的信息,适当减少情境题的数量可能有助于我们提高效率。

2. 估计熵和最小熵的含义及应用

King G 和 Wand J (2007)一文指出,我们可以结合最小熵估计熵来判断该如何选择情境题。最小熵反映的是,当不存在任何新假设时自评题和情境题所蕴含的信息。估计熵反映的是,当存在一些新的假设时自评题和情境题所蕴含的信息。我们也可以将其理解成,最小熵类似于情境题所提供的信息,而估计熵类似于情境题所造成的成本。选择合适的情景题组合,主要是对估计熵和最小熵两者进行权衡。

该文提供了关于政治效能感和健康的例子,都有五道情境题。在下文的表述中,情境题 1 表示仅使用第 1 题情境题,情境题 12 表示使用第 1、2 道情境题,情境题 1245 表示使用第 1、2、4、5 道情境题。

例子 1:政治效能感

  • 情境题 1、2、3、4、5 都在 45° 虚线上

这说明当仅使用一道情境题时,最小熵与估计熵是相等的。这是因为估计熵的不确定性来源于情境题应答的无区分和乱序这两种情况。仅使用一道情境题便不会出现应答无区分和乱序的情况。

  • 当研究者不添加额外的假设时,情境题 125 是最好的选择

在对最小熵和估计熵两者进行权衡后,我们发现情境题 125 是最好的选择。情境题 125 的最小熵是几乎最大的。虽然情境题 1245 的最小熵比它稍大,但它的估计熵也比情境题 125 的估计熵大很多,这说明在情境题 125 的基础上添加第 4 道情境题并不是一个好的选择,除非研究者添加一个新的假设,以估计熵的大小来作为研究的主要关注点。

例子 2:健康 1

例子 2 和例子 3 采用的健康自评题和情境题来自 2002 年世界健康调查 (World Health Survey, WHS)在中国实施调查的内容。

  • 情境题 1 或 2 蕴含的信息远大于情境题 345

从上图中我们可以发现,情境题 1 或 2 的最小熵远大于情境题 345,这说明仅使用情境题 1 或 2 所获取的信息比同时使用情境题 3、4、5 所获取的信息多。此外,使用情境题 12 所获得的信息比情境题 1345 或 2345 的多,这说明在使用情境题 1、2 或 12 时,可不添加其余三道情境题。

例子 3:健康 2

  • 情境题之间的区分度不大

由上图可知,当同时使用多道情境题时,他们在图中的点比较密集,说明情境题之间的区分度不大。

  • 情境题的估计熵值较小

这些情境题的估计熵都很靠近虚线,说明估计熵与最小熵的值非常接近。其中一个很重要的原因是,大部分人没有感觉到在自理方面存在困难,情境题里面的场景与他们的实际情况有着较大的距离。因为情境题能提供的信息较少。此外,这也反映了情境题本身的质量较差。自理一般涉及的是吃饭、洗澡、穿衣等方面,但是情境题中提到了「洗衣服」和「穿衣服」两个动作,受访者可能会认为它们与健康的关联度不大。如果将该道健康情境题换成以下这一个与自理话题有关的情境题,效果可能会更好:

[Victor]经常不需要他人的帮助就可以完成清洁、穿衣和吃饭。他偶尔感受到背部疼痛,此时他需要他人协助完成洗澡和穿衣。

3. 绘制「估计熵-最小熵」散点图

画图的关键在于如何计算选择不同情景题时的估计熵和最小熵。R 中的anchors(..., combn = TRUE)可以基于删截有序概率模型 (censored ordered probit model) 来计算不同情景题组合的最小熵值和估计熵值。以下例子来自 Wand J, King G 和 Lau O (2011)。

下载安装包和数据

>library("anchors")
>data("freedom")

计算 C

a2 <- anchors(self ~ vign2 + vign1 + vign3 + vign6, freedom, method = "C", combn = TRUE)

关于 C 的描述性统计

summary(a2)

ANCHORS: SUMMARY OF RELATIVE RANK ANALYSIS:

Overview of C-ranks
Number of cases: 1013 with interval value, 2487 with scalar value
//1013个 C 为区间值,2487个 C 为刻度值,即有1013个受访者对情境题的打分为乱序或无区分,2487个受访者对情境题的打分为正确顺序

Maximum possible C-rank value: 9   // C 的最大值

Interval on C-scale: Frequency and proportions Cs to Ce
         N     Prop  MinEnt
1 to 1  339   0.097    1
2 to 2  129   0.037    2
3 to 3  32    0.009    3
4 to 4  67    0.019    4
5 to 5  393   0.112    5
6 to 6  211   0.060    6
7 to 7  433   0.124    7
8 to 8  448   0.128    8
9 to 9  435   0.124    9
1 to 4  50    0.014    1
1 to 5  33    0.009    5
1 to 6  31    0.009    5
1 to 7  28    0.008    7
1 to 8  32    0.009    7
1 to 9  19    0.005    7
2 to 4  112   0.032    2
2 to 5  74    0.021    5
2 to 6  39    0.011    5
2 to 7  47    0.013    7
2 to 8  177   0.051    7
2 to 9  91    0.026    7
3 to 6  5     0.001    5
3 to 7  1     0.000    7
3 to 8  6     0.002    7
3 to 9  2     0.001    7
4 to 6  16    0.005    5
4 to 7  3     0.001    7
4 to 8  27    0.008    7
4 to 9  12    0.003    7
5 to 8  8     0.002    7
5 to 9  6     0.002    7
6 to 8  162   0.046    7
6 to 9  32    0.009    7    // C 的不同取值所对应的观测值、频率及最小熵

Note: MinEnt is the rank for the interval that minimizes entropy

Summary of C-ranks with ties/intervals broken:

Distribution of ranks omiting interval cases
  1     2     3     4     5     6     7     8     9
0.136 0.052 0.013 0.027 0.158 0.085 0.174 0.18  0.175   //采用「直接删除法」调整后的C的取值及分布

Distribution of ranks allocating interval cases uniformly
  1     2     3     4     5     6     7     8     9
0.107 0.078 0.051 0.064 0.144 0.103 0.161 0.161 0.131   //采用「平均分配法」调整后的C的取值及分布

Distribution of ranks allocating interval cases via cpolr and conditioning on observed ranks
  1     2     3     4     5     6     7     8     9
0.110 0.082 0.021 0.047 0.167 0.094 0.175 0.173 0.132   //采用「参数辅助法」调整后的C的取值及分布

Allocating cases to their MinEnt values produces
  1     2     3     4     5     6     7     8     9
0.111 0.069 0.009 0.019 0.169 0.060 0.310 0.128 0.124   //采用「最小熵法」调整后的C的取值及分布


Summary of entropy and intervals by subsets of vignettes:

  Vignettes  Estimated entropy  Minimum entropy
1   1234          2.068              1.902
5   123           1.652              1.517
4   124           1.658              1.522
3   234           1.904              1.845
2   134           1.923              1.834
12   12           1.021              0.920
10   23           1.450              1.429
9    13           1.487              1.436
8    24           1.492              1.467
7    14           1.515              1.472
6    34           1.528              1.489
15    2           0.794              0.794
14    1           0.879              0.879
13    4           0.961              0.961
11    3           1.044              1.044   //选择不同的情境题时的估计熵和最小熵

   Interval Cases  Span avg.  Max. rank
1      1013          2.216        9
5       774          1.836        7
4       763          1.766        7
3       532          1.470        7
2       705          1.691        7
12      684          1.543        5
10      224          1.152        5
9       426          1.329        5
8       196          1.136        5
7       319          1.228        5
6       425          1.285        5
15      0            1.000        3
14      0            1.000        3
13      0            1.000        3
11      0            1.000        3

我们可以直接从此结果中获取采用不同情境题组合时的估计熵和最小熵,接着画出估计熵-最小熵的散点图。

4. 参考文献和相关资料

  • 连享会推文:锚定情境法:有效控制变量自评偏差
  • Gary King and Jonathan Wand. 2007. “Comparing Incomparable Survey Responses: New Tools for Anchoring Vignettes.” Political Analysis, 15, Pp. 46-66. [link]
  • Wand J, King G, Lau O, et al. anchors: Software for Anchoring Vignette Data[J]. Journal of Statistical Software, 2011, 42(1): 1-25.[link]

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD