rddensity-RDD中的平滑性检验和操纵检验

发布时间:2022-02-13 阅读 1458

作者: 黄天泽 ( 中山大学 )
邮箱: huangtz@mail2.sysu.edu.cn

Source: Cattaneo, M. D., Jansson, M., & Ma, X. (2020). Simple local polynomial density estimators. Journal of the American Statistical Association, 115(531), 1449-1455. -Link-


目录


1. 方法介绍

1.1 断点回归

社会科学家希望研究政策和的结果之间的因果关系,但这种实验往往是不可控制的。研究人员急切的想要找到一种严格的非实验设计方法论,而断点回归 (RD) 就是近年来受到广泛关注的一种方法。

RD 分析的特点是,干预的分配是基于评级变量(rating variable)与断点(cut-point)的大小关系,以及是否在该点上产生概率的不连续,出现不连续则干预是有效的。

1.2 传统方法不足和本方法创新

McCrary(2008)对这一现象进行了正式的实证检验,评估了在断点处评级变量密度的不连续性是否等于零。以下概述了实现该测试的步骤:

  • 使用特定大小的 bin 创建一个密度直方图,确保不与切点重叠。
  • 运行两个局部线性回归程序,一个在断点的右边,一个在断点的左边。在这些回归中,每个 bin 的中点的评级变量的值是回归变量,每个 bin 的频率计数构成结果。
  • 测试两个回归的截距的对数差是否与 0 有统计学差异。

与上面描述的图形分析一样,在进行此分析时,最重要的决策是选择 bin 大小(直方图中每个点包含的评级变量数量)和带宽(包含的点的范围)。

同时,传统的基于核函数的密度估计方法由于其边界偏差,在边界附近或边界处不再一致。可选择的平滑方法用于处理密度估计中的边界点,但它们都需要额外的调优参数选择或其他典型的特殊修改,具体取决于所考虑的评估点和/或方法。

而本文介绍了一种基于局部多项式技术的直观且易于实现的非参数密度估计方法。该估计量是完全边界自适应和数据驱动的,不需要预分组或任何其他的数据转换。并且给出了估计量的主要渐近性质,并利用这些结果提供了估计、推理和带宽选择方法。同时它在边界处的表现也比传统估计量要好。  

2. 边界自适应密度估计量

2.1 局部多项式密度估计量

假设 x1,x2,...,xn 为随机样本,同时 xi 是一个连续随机变量,并且在其支集 XR 上有平滑的累积分布函数。它的概率密度函数为 f(x)=xP[xix],当在支集的边界时可以认为是单侧导数。该文章的结果适用于有界限和无界限的支集 X

令 F^(x)=1ni=1n1(xix) 表示经典经验分布函数,则提出的局部多项式密度估计量为

估计量 f^(x) 就是局部多项式近似值中一阶项的斜率系数。

注: