Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存 ,可以获得最佳浏览体验。
New! lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
, ihelp
, rdbalance
, gitee
, installpkg
✌ 课程详情 : https://gitee.com/lianxh/Course
⛳ 课程主页 : https://gitee.com/lianxh/Course
⛳ Stata 系列推文:
☝ PDF下载 - 推文合集
作者 :陈卓然(中山大学)
邮箱 :chenzhr25@mail2.sysu.edu.cn
编者按 :本文主要参考自下文,特此致谢!
Source :Masten M A, Poirier A, Zhang L. Assessing sensitivity to unconfoundedness: Estimation and inference[J]. arXiv preprint arXiv:2012.15716, 2020. -PDF-
目录
1. 引言
本文提出一系列用来量化处理效应稳健性的方法,这一处理效应是通过使用无混淆假定 (或称依可测变量选择或条件独立假设) 来估计的。特别地,我们通过调整一个敏感性参数 c 来逐渐放松无混淆假定,并估计不同处理效应的参数,如 ATE、ATT等。当 c 足够大时,这些边界就等于无假设下的边界。进一步,本文通过 NSW 项目的研究来展现方法的具体应用。
2. 处理效应的总体边界
2.1 模型和基准点估计结果
考虑标准的潜在结果框架,其中 X ∈ { 0 , 1 } 是一个可观测的二元处理变量,Y 1 和 Y 0 代表不可观测的潜在结果。
令 W ∈ R d W 代表一个可观测协变量的向量,可以是离散的、连续的或者是二者的混合。令 W = supp ( W ) 是 W 的支撑,定义 p x ∣ w = P ( X = x ∣ W = w ) ,代表可观测的广义倾向得分。
当满足如下的两个假设时,潜在结果的条件分布是能够被点识别的。
重叠性:对于所有的 w ∈ W ,p 1 ∣ w ∈ ( 0 , 1 ) 。
因此 Y 1 ∣ W 和 Y 0 ∣ W 分布的任何函数都是能够被点识别,我们不妨聚焦于两个典型的例子:平均处理效应 A T E = E ( Y 1 − Y 0 ) 和处理组的平均处理效应 A T T = E ( Y 1 − Y 0 ∣ X = 1 ) ,同时也考虑条件分位数处理效应 CQTE ( τ ∣ w ) = Q Y 1 ∣ W ( τ ∣ w ) − Q Y 0 ∣ W ( τ ∣ w ) 和条件平均处理效应 CATE ( w ) = E ( Y 1 − Y 0 ∣ W = w ) 。
2.2 放松无混淆因素假设的敏感性分析
相比于无混淆性假设而言,重叠性假设很容易从数据中得到验证。但是无混淆性假设却很难被证明或者被证伪,因此常常采用敏感性分析的方法来研究。具体而言,我们将无混淆性假设用一个更弱的假设来替代,然后探究这样是否会影响我们对感兴趣参数的判断。我们不妨将这种更弱的假设称为条件 c 依赖性 :
定义 1:令 x ∈ { 0 , 1 } ,w ∈ W ,c 是一个介于 0 和 1 之间的常数。如果下式对于所有 w ∈ W 成立,我们称 X 在给定 W 时,条件 c 依赖于 Y x 。
sup y x ∈ supp ( Y x ∣ W = w ) | P ( X = 1 ∣ Y x = y x , W = w ) − P ( X = 1 ∣ W = w ) | ≤ c
当 c = 0 时,条件 c 依赖假设等价于无混淆因素假设 X ⊥ Y x ∣ W 。当 c > 0 时,条件 c 依赖通过允许不可观测的条件概率 P ( X = 1 ∣ Y x = y x , W = w ) ,与可观测的倾向得分之间相差至多为 c ,从而我们可以允许一定程度上的依不可观测变量选择,也就是说在给定可观测变量 W 之后,处理变量和结果变量之间并不一定独立。
当 c 充分大超过一个阈值 C ¯ 时,条件 c 依赖假设就不会施加任何约束了,而这一阈值等于
这一阈值的推导也很容易,因为
sup y x ∈ supp ( Y x ∣ W = w ) | P ( X = 1 ∣ Y x = y x , W = w ) − P ( X = 1 ∣ W = w ) | = max ( 0 − P ( X = 1 ∣ W = w ) , 1 − P ( X = 1 ∣ W = w ) ) = max ( p 1 ∣ w , p 0 ∣ w )
当 c ∈ ( 0 , C ¯ ) 时,条件 c 依赖性假设施加了一定程度的约束,但是它并没有要求条件独立性一定要满足,因此这是一种条件部分独立假设。我们将无混淆因素假设替换为:
条件部分独立假设:X 在给定 W 后,条件 c 依赖于 Y 1 和 Y 0 。
2.3 处理效应边界
当我们将条件独立假设放松以后,ATE 和 ATT 不能再被点识别,只能进行部分识别,即可以确定上界和下界。随着 c 逐渐逼 近0,这些边界就会收敛到一个点,因此对于很小的 c 来说,上下边界的范围是非常窄的。敏感性分析的目标就是去探寻这些边界的形状和宽度如何随着 c 从 0 到 1 变化。
对于连续的 Y x 来说,所有我们感兴趣的参数都可以被写为分位数回归 Q Y x ∣ W ( τ ∣ w ) 的边界函数。在上述条件部分独立假设和其他一些正则化假设下,Masten 和 Poirier (2018) 给出边界的显式表达式:[ Q _ Y x ∣ W c ( τ ∣ w ) , Q ¯ Y x ∣ W c ( τ ∣ w ) ] 。
Q ¯ Y x ∣ W c ( τ ∣ w ) = Q Y ∣ X , W ( t ¯ ( τ , x , w ) ∣ x , w ) ( 3 )
其中,t ¯ ( τ , x , w ) = min { τ + c p x ∣ w min { τ , 1 − τ } , τ p x ∣ w , 1 } 。
Q _ Y x ∣ W c ( τ ∣ w ) = Q Y ∣ X , W ( t _ ( τ , x , w ) ∣ x , w ) ( 4 )
其中,t _ ( τ , x , w ) = max { τ − c p x ∣ w min { τ , 1 − τ } , τ − 1 p x ∣ w + 1 , 0 } 。
从而我们可以求得条件分位数处理效应 CQTE ( τ ∣ w ) 的上界和下界:
[ CQTE c ( τ ∣ w ) , CQTE ¯ c ( τ ∣ w ) ] ≡ [ Q _ Y 1 ∣ W c ( τ ∣ w ) − Q ¯ Y 0 ∣ W c ( τ ∣ w ) , Q ¯ Y 1 ∣ W c ( τ ∣ w ) − Q _ Y 0 ∣ W c ( τ ∣ w ) ]
将这一边界在 τ 上积分可得 CATE ( w ) 的上下界:
[ C A T E _ c ( w ) , C A T E ¯ c ( w ) ] ≡ [ ∫ 0 1 CQTE c ( τ ∣ w ) d τ , ∫ 0 1 C Q T E ¯ c ( τ ∣ w ) d τ ]
进一步在 W 的边际分布上积分可得 ATE 的上下界:
[ A T E c _ c , A T E ¯ c ] ≡ [ E ( C A T E c _ ( W ) ) , E ( C A T E c ¯ ( W ) ) c ] ]
从而为了得到 ATT 的上下界,不妨令
E _ x c ( w ) = ∫ 0 1 Q _ Y x c ( τ ∣ w ) d τ and E ¯ x c ( w ) = ∫ 0 1 Q ¯ Y x c ( τ ∣ w ) d τ
E _ x c ( w ) 和 E ¯ x c ( w ) 代表了E ( Y x ∣ W = w ) 的边界,从而我们可以得到 E ( Y x ) 的边界:
E _ x c = E ( E _ x c ( W ) ) and E ¯ x c = E ( E ¯ x c ( W ) )
于是我们得到了 ATT 的边界:
[ E ( Y ∣ X = 1 ) − E ¯ 0 c − p 0 E ( Y ∣ X = 0 ) p 1 , E ( Y ∣ X = 1 ) − E _ 0 c − p 0 E ( Y ∣ X = 0 ) p 1 ] ( 5 )
其中,p x = P ( X = x ) ,x ∈ { 0 , 1 } ,并且上述所有的边界都可以取到 (边界是 sharp 的)。
2.4 截断点
在基准模型 (c = 0 ) 的条件下发现 A T E > 0 ,那么我们可以在多大程度上放松无混淆因素假设,同时保证 A T E > 0 ?为此我们需要定义 ATE 非负的截断点:
c B P = sup { c ∈ [ 0 , 1 ] : [ A T E c _ , A T E ¯ c ] ⊆ [ 0 , ∞ ) }
而这一数值实际上就刻画了 ATE 为正这一结论的稳健性。
2.5 条件 c 依赖性
在实际研究中如何去理解条件 c 依赖性假设呢?或者说在实际研究中什么样的 c 是大的,什么样的 c 是小的?不妨令 W k 代表 W 的一个成分,定义倾向得分
p 1 ∣ W ( w − k , w k ) = P ( X = 1 ∣ W = ( w − k , w k ) )
令
p 1 ∣ W − k ( w − k ) = P ( X = 1 ∣ W − k = w − k )
表示去 k 倾向得分:仅条件于 W − k ,总体中被处理的个体所占的比例。进一步考虑如下的随机变量
Δ k = | p 1 ∣ W ( W − k , W k ) − p 1 ∣ W − k ( W − k ) |
这一个差分刻画了在给定 W − k 的条件下,通过加入 W k 对于可观测的倾向得分的影响。回忆一下条件 c 依赖性的定义,不难发现其中的相似之处:我们在给定 W 的前提下,通过加入不可观测的 Y x 造成倾向得分的变化。因此我们可以使用 Δ k 的分布对 c 进行校准,也就是说可以去计算 Δ k 的 50 分位点、75 分位点、90 分位点以及其上界 max supp ( Δ k ) 。
然后将这些点作为截断点 c B P 的参考值,如果 c B P 小于选定的参考值,这意味着我们感兴趣的结论是敏感的。如果 c B P 大于选定的参考值,这意味着我们感兴趣的结论是稳健的。当然你也可以看一下 c B P 位于 Δ k 分布的什么位置,也就是通过计算 F Δ k ( c B P ) 来评估相对的敏感性。
那么如何选定协变量 k 呢?一般来说,我们应该选择那些对于基准回归结果影响充分大的控制变量。那么又怎样知道控制变量的影响是否充分大呢?
比如说我们想要估计 A T E ,不妨令 A T E − k 代表在仅使用 W − k 的条件下通过依可观测变量选择模型估计出来的 A T E ,而令 A T E 代表在使用全部控制变量的条件下通过依可观测变量选择模型估计出来的 A T E ,则 | A T E − A T E − k A T E | 就表示了遗漏掉控制变量 k 对于 A T E 点估计量的影响。
3. 估计
前一节中假设总体分布是已知的,但是我们实际研究中只能观测到总体的一个有限样本 { ( Y i , X i , W i ) } i = 1 n ,那么如何使用有限的样本数据对于上一节中提到的总体边界进行估计呢?注意到在上一节中所有边界的推导背后都依赖于式 (3) 和式 (4),而这两个 Q Y x ∣ W 的上下界又依赖于如下两个变量: