温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
作者: 张沛康 (北京大学, patrick.zhang@pku.edu.cn)
连享会 Stata 暑期班-论文班助教
Source: 以下内容源自 King G 和 Wand J (2007) 以及 Wand J, King G 和 Lau O (2011)
目录
Notes: 以下部分需要用到 R,有关 R 的安装和介绍,参见:Rcall:Stata 与 R 的无缝对接 ( 微信版 )。
在第一期关于锚定情境法的推文 (锚定情境法(一):有效控制变量自评偏差, 微信版) 中,我们对锚定情境法的含义、应用及注意事项作了简要的介绍。在本期我们将介绍如何选择合适的情境题。当调查数据有很多道情境题时,我们可能会思考,是否要把所有情景题都进行分析?毕竟无论是采用参数法还是非参数法,情境题数量过多会增加分析的困难性。且有些情境题之间可能会包含相同的信息,适当减少情境题的数量可能有助于我们提高效率。
King G 和 Wand J (2007)一文指出,我们可以结合最小熵和估计熵来判断该如何选择情境题。最小熵反映的是,当不存在任何新假设时自评题和情境题所蕴含的信息。估计熵反映的是,当存在一些新的假设时自评题和情境题所蕴含的信息。我们也可以将其理解成,最小熵类似于情境题所提供的信息,而估计熵类似于情境题所造成的成本。选择合适的情景题组合,主要是对估计熵和最小熵两者进行权衡。
该文提供了关于政治效能感和健康的例子,都有五道情境题。在下文的表述中,情境题 1 表示仅使用第 1 题情境题,情境题 12 表示使用第 1、2 道情境题,情境题 1245 表示使用第 1、2、4、5 道情境题。
这说明当仅使用一道情境题时,最小熵与估计熵是相等的。这是因为估计熵的不确定性来源于情境题应答的无区分和乱序这两种情况。仅使用一道情境题便不会出现应答无区分和乱序的情况。
在对最小熵和估计熵两者进行权衡后,我们发现情境题 125 是最好的选择。情境题 125 的最小熵是几乎最大的。虽然情境题 1245 的最小熵比它稍大,但它的估计熵也比情境题 125 的估计熵大很多,这说明在情境题 125 的基础上添加第 4 道情境题并不是一个好的选择,除非研究者添加一个新的假设,以估计熵的大小来作为研究的主要关注点。
例子 2 和例子 3 采用的健康自评题和情境题来自 2002 年世界健康调查 (World Health Survey, WHS)在中国实施调查的内容。
从上图中我们可以发现,情境题 1 或 2 的最小熵远大于情境题 345,这说明仅使用情境题 1 或 2 所获取的信息比同时使用情境题 3、4、5 所获取的信息多。此外,使用情境题 12 所获得的信息比情境题 1345 或 2345 的多,这说明在使用情境题 1、2 或 12 时,可不添加其余三道情境题。
由上图可知,当同时使用多道情境题时,他们在图中的点比较密集,说明情境题之间的区分度不大。
这些情境题的估计熵都很靠近虚线,说明估计熵与最小熵的值非常接近。其中一个很重要的原因是,大部分人没有感觉到在自理方面存在困难,情境题里面的场景与他们的实际情况有着较大的距离。因为情境题能提供的信息较少。此外,这也反映了情境题本身的质量较差。自理一般涉及的是吃饭、洗澡、穿衣等方面,但是情境题中提到了「洗衣服」和「穿衣服」两个动作,受访者可能会认为它们与健康的关联度不大。如果将该道健康情境题换成以下这一个与自理话题有关的情境题,效果可能会更好:
[Victor]经常不需要他人的帮助就可以完成清洁、穿衣和吃饭。他偶尔感受到背部疼痛,此时他需要他人协助完成洗澡和穿衣。
画图的关键在于如何计算选择不同情景题时的估计熵和最小熵。R 中的anchors(..., combn = TRUE)
可以基于删截有序概率模型 (censored ordered probit model) 来计算不同情景题组合的最小熵值和估计熵值。以下例子来自 Wand J, King G 和 Lau O (2011)。
● 下载安装包和数据
>library("anchors")
>data("freedom")
● 计算 C
a2 <- anchors(self ~ vign2 + vign1 + vign3 + vign6, freedom, method = "C", combn = TRUE)
● 关于 C 的描述性统计
summary(a2)
ANCHORS: SUMMARY OF RELATIVE RANK ANALYSIS:
Overview of C-ranks
Number of cases: 1013 with interval value, 2487 with scalar value
//1013个 C 为区间值,2487个 C 为刻度值,即有1013个受访者对情境题的打分为乱序或无区分,2487个受访者对情境题的打分为正确顺序
Maximum possible C-rank value: 9 // C 的最大值
Interval on C-scale: Frequency and proportions Cs to Ce
N Prop MinEnt
1 to 1 339 0.097 1
2 to 2 129 0.037 2
3 to 3 32 0.009 3
4 to 4 67 0.019 4
5 to 5 393 0.112 5
6 to 6 211 0.060 6
7 to 7 433 0.124 7
8 to 8 448 0.128 8
9 to 9 435 0.124 9
1 to 4 50 0.014 1
1 to 5 33 0.009 5
1 to 6 31 0.009 5
1 to 7 28 0.008 7
1 to 8 32 0.009 7
1 to 9 19 0.005 7
2 to 4 112 0.032 2
2 to 5 74 0.021 5
2 to 6 39 0.011 5
2 to 7 47 0.013 7
2 to 8 177 0.051 7
2 to 9 91 0.026 7
3 to 6 5 0.001 5
3 to 7 1 0.000 7
3 to 8 6 0.002 7
3 to 9 2 0.001 7
4 to 6 16 0.005 5
4 to 7 3 0.001 7
4 to 8 27 0.008 7
4 to 9 12 0.003 7
5 to 8 8 0.002 7
5 to 9 6 0.002 7
6 to 8 162 0.046 7
6 to 9 32 0.009 7 // C 的不同取值所对应的观测值、频率及最小熵
Note: MinEnt is the rank for the interval that minimizes entropy
Summary of C-ranks with ties/intervals broken:
Distribution of ranks omiting interval cases
1 2 3 4 5 6 7 8 9
0.136 0.052 0.013 0.027 0.158 0.085 0.174 0.18 0.175 //采用「直接删除法」调整后的C的取值及分布
Distribution of ranks allocating interval cases uniformly
1 2 3 4 5 6 7 8 9
0.107 0.078 0.051 0.064 0.144 0.103 0.161 0.161 0.131 //采用「平均分配法」调整后的C的取值及分布
Distribution of ranks allocating interval cases via cpolr and conditioning on observed ranks
1 2 3 4 5 6 7 8 9
0.110 0.082 0.021 0.047 0.167 0.094 0.175 0.173 0.132 //采用「参数辅助法」调整后的C的取值及分布
Allocating cases to their MinEnt values produces
1 2 3 4 5 6 7 8 9
0.111 0.069 0.009 0.019 0.169 0.060 0.310 0.128 0.124 //采用「最小熵法」调整后的C的取值及分布
Summary of entropy and intervals by subsets of vignettes:
Vignettes Estimated entropy Minimum entropy
1 1234 2.068 1.902
5 123 1.652 1.517
4 124 1.658 1.522
3 234 1.904 1.845
2 134 1.923 1.834
12 12 1.021 0.920
10 23 1.450 1.429
9 13 1.487 1.436
8 24 1.492 1.467
7 14 1.515 1.472
6 34 1.528 1.489
15 2 0.794 0.794
14 1 0.879 0.879
13 4 0.961 0.961
11 3 1.044 1.044 //选择不同的情境题时的估计熵和最小熵
Interval Cases Span avg. Max. rank
1 1013 2.216 9
5 774 1.836 7
4 763 1.766 7
3 532 1.470 7
2 705 1.691 7
12 684 1.543 5
10 224 1.152 5
9 426 1.329 5
8 196 1.136 5
7 319 1.228 5
6 425 1.285 5
15 0 1.000 3
14 0 1.000 3
13 0 1.000 3
11 0 1.000 3
我们可以直接从此结果中获取采用不同情境题组合时的估计熵和最小熵,接着画出估计熵-最小熵的散点图。
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟 Stata 33 讲 - 连玉君, 每讲 15 分钟. 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看,所有课程可以随时购买观看。
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 ⭐ | DSGE, 因果推断, 空间计量等 | |
⭕ Stata数据清洗 | 游万海 | 直播, 2 小时,已上线 |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会学习群-常见问题解答汇总:
✨ https://gitee.com/arlionn/WD