Stata论文复现:适用于小样本的RDD

发布时间:2022-09-06 阅读 1744

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:张迪 (中南财经政法大学)
邮箱zhangdi_16@126.com

编者按:本文主要摘译自下文,特此致谢!
Source:Cattaneo M D, Frandsen B R, Titiunik R. Randomization inference in the regression discontinuity design: An application to party advantages in the US Senate[J]. Journal of Causal Inference, 2015, 3(1): 1-24. -PDF- -Replication1- -Replication2- -Replication3-


目录


1. 研究背景

作者认为,断点回归 (Regression Discontinuity,RD) 是一种局部随机实验。它的一个重要假设是协变量在断点周围保持连续变化,在此基础上,断点处接受干预的概率跳跃即为处理效应。该结论是在局部随机假设成立的情况下得出,但是尚未有研究证明局部连续性的存在。本文贡献如下:

  • 对标准 RDD 进行补充和稳健性检验,提出一种小样本适用的随机化推断方法;
  • 将改进的 RDD 随机化推断方法应用到美国选举案例中。

2. 基本原理

RDD 模型需要三个要件:

  • 样本值:本文的样本取值为政党在选举中的选票率;
  • 断点值 r0:本文的断点值是 50%;
  • 干预状态:本文的干预状态是政党选举是否受到在任的影响。

RDD 又分为精确 RDD 和模糊 RDD。精确 RDD (Sharp Regression Discontinuity,SRD) 是指在断点值附近,个体受到干预的概率由 0 跳跃至 1。模糊 RDD (Fuzzy Regression Discontinuity,FRD) 是指在断点值附近,个体受到干预的概率由 a 跳跃至 b。本文使用的是精确 RDD。

文章中各个数学符号含义如下:

符号 Description 案例中的含义
i 第 i 个样本,i=1,,n 。一共有 n 个样本。 i
Ri 样本 i 的观测值,即上面所说的 RDD 模型三要素之一的样本值。Ri 也是分组变量,根据其与 r0 比较大小,来确定是否受到干预。n 个样本的观测值集合在 R 中。 民主党在 i 州获胜的边际效用。
r 集合 R 中的值。 -
r0 断点值。 -
yi(r) 样本 i 的潜在结果。 -
Yi 样本 i 的观测结果,有 Yiyi(R)n 个样本的观测结果结合在 Y 中。 -
Z 干预状态指标,有 Zi=1 (Rir0) 和 Zi=0 (Ri<r0) 。 政党选举是否受到在任的影响。

2.1 随机推断框架

2.1.1 局部随机假设

假设 1 局部随机假设:存在一个邻域 W0=[r_,r¯]r_<r0<r¯), 对于满足  RiW0 的所有样本  i ,有:

  • FRiRiW0(r)=F(r)
  • 对于所有的 r ,有 yi(r)=yi(zW0)

其中,FRiRiW0(r) 是 样本 i 的观测值 Ri 的条件分布函数。

假设 1 的数学含义:

  • 在窗口 W0 中的所有观测值服从同一分布,近似于随机分配实验,总体函数在 r0 的连续;
  • 潜在结果 yi(r) 只由窗口 W0 的干预指标决定。其一,在窗口 W0 方面,防止了窗口 W0 外的样本值影响窗口 W0 内潜在结果 ( yi(r)=yi(rW0) );其二,影响指标方面,要求窗口 W0 内样本的潜在结果只由指标决定,而不是指标的具体值决定 (yi(rW0)=yi(zW0))。

假设 1 在本案例中的解释:在断点周围的一个小窗口中,只有在 t 选举赢得席位,才会影响到后面选举的选票率。

假设 1 存在的问题:大多数情况下,假设 1 只在断点附近的小窗口范围内适用,即适合于只有少量的观测样本。为了解决该问题,本文进一步提出了精确 RDD 的随机化方法。

根据假设 1,首先需要确定干预指标 ZW0 的随机机制,即样本点如何随机分配在断点两侧。常见的有伯努利随机分配机制和固定边际随机机制。

伯努利随机分配机制:干预变量 Zi 服从参数为 π 的伯努利分布。ZW0 的条件分布为 Pr(ZW0=z)=πz1(1π)(1z)1 (zΩW0),其中,1 是单位向量。

伯努利随机分配机制的存在问题:一是随机分布取决于参数 π 的取值,而 RDD 模型中通常无法明确知道参数 π 的值。二是会导致窗口内有正概率的样本会被分到同一组。

固定边际随机机制:固定边际随机机制 (fixed-margins randomization) ,即窗口内处理组的样本数固定为 mW0ΩW0 有 (nW0mW0) 的概率包含 mW0 个 1 向量和 nW0mW0 个 0 向量。本文提出的随机推断方法就使用了固定边际随机机制。

2.1.2 检验统计量

检验统计量需要确定原假设和检验统计量的分布。

在选择随机机制后,可以在假设 1 下检验零处理效应的精确 RDD 原假设 (原假设 H0:分组变量的概率密度函数在断点初处连续),这意味着无论干预指标 ZW0 的取值是什么,观测结果是固定的。换言之,在窗口 W0 内,潜在结果 yi 不是干预状态指标 ZW0 的函数,即窗口 W0 内的所有样本 i,都有 yi(z)=yi (zΩW0),而且 yi 是固定的标量。

可使用的检验统计量包括均值差异检验、K-S 检验和分位差检验等。一般情况下,大样本的不同的检验统计量的结果相近,假设 1 成立的情况下,小样本的不同检验统计量的结果也相近,这后面的分析中会用到这一点。检验统计量 T(ZW0,yW0) 的分布和 ZW0 的分布已知,则统计量结果取决于固定的观测结果 yW0 的取值。

置信区间和处理效应的点估计需要另外的假设。

假设 2 局部稳健假设:对于满足 RiW0 的所有样本 i,如果 zi=z~i,则 yi(zW0)=yi(z~W0)

假设 2 的数学含义:

  • 样本 i 的潜在结果只由 zi 决定;
  • 结合假设 1,窗口 W0 中的潜在结果 yi 可以简化为 yi(0) 和 yi(1)
  • 结合假设 1,窗口 W0 中 nW0 个潜在结果的总体分布或分位数决定了处理效应 {yi(z):RiW0}

确定的置信区间用 Q1(q) 和 Q0(q) 表示。Q1(q) 代表 {yi(1):RiW0} 的第 q 分位数的概率,Q0(q) 同理。 Q1(q) 包含窗口 W0 中大于断点的处理组的样本值 x ,因此,假设 H0:Q1(q)=x 在大多数特定的检验中不被拒绝。

分位数处理效应为 Q1(q)Q0(q)

假设 3 局部不变的处理效应模型:对于满足 RiW0 的所有样本 i ,有 yi(1)=yi(0)+τ。其中,τR

假设 3 的数学含义:结合假设 1、假设 2,并假设 τ=τ0 即为处理效应。用 ZW0 调整,调整后的处理效应 Yiτ0Zi=yi(0) 保持不变。因此,在该模型下,对 τ=τ0 的假设检验与上述精确 RDD 原假设检验完全相同,只是用调整后的处理效应来代替原始的处理效应。

设检验统计量为 T(ZW0,YW0τ0ZW0)。可以通过找到所有的 τ0 值来确定处理效应的置信区间,使得 τ=τ0 的检验不被拒绝。还可以通过点估计值来找到 τ0 的值,使观察到的检验统计量 T(ZW0,YW0τ0ZW0) 等于其在原假设下的期望。

2.2 窗口选择

假设 1 中涉及到窗口 W0 的选择,本文提出了一种基于协变量的窗口选择方法。

2.2.1 窗口选择原理

检验协变量在断点处是否存在跳跃,若是存在跳跃,说明该协变量的条件密度函数在断点处不是连续的,需要剔除。如果协变量在断点处连续,则可以用于 RDD。假设 1 成立的窗口 W0 内,协变量 x 的处理效应为零。

假设样本 i 有协变量 xi(r),协变量 xi(r) 与窗口 W0 内部的取值无关、外部取值有关,存在窗口 W (WW0):

  • 当 RiWW0 时,协变量和样本值相关;
  • 当 RiW0 时,协变量和样本值无关。

如果在给定的窗口中,精确 RDD 原假设被拒绝,则该窗口严格大于 W0

2.2.2 窗口选择过程

从最大的窗口开始,对协变量的连续性做检验,然后依次缩小窗口大小,直至无法拒原假设,使得窗口内的协变量都是连续的。

设协变量的集合为 X=(X1,X2,,Xn),等价于之前定义的 Xi=xi(R)

假设 4 协变量的零处理效应假设:对于满足 RiW0 的所有样本 i、所有的 r,有协变量 xi(r) 满足 xi(r)=xi(zW0)=xi

假设 4 的数学含义:对于 RiW0 中的样本,处理效应 ZW0 对协变量 XW0 没有影响。表明协变量是事先确定的,是否干预不可能影响协变量,协变量的处理效应为零。

接下来需要证明窗口 W0 的选择建立在协变量连续的基础之上,即协变量和在 W0 之外的样本值相关。基于此提出假设 5。

假设 5 W0 之外,协变量和样本值相关假设:定义 W~=[ρ_,r_)(r¯,ρ¯] ,其中 (ρ_,ρ¯) 满足 p_<r_<r¯<ρ¯ 条件,而且 r0W0=[r_,r¯]。对于满足 RiW~rW~ 的所有样本 i,有:

  • FRiRiW~(r)=F(r;xi(r))
  • 如果 jk,则会出现以下两种情况之一。一是 xj>xkF(r;xj)<F(r;xk),二是 xj>xkF(r;xj)>F(r;xk)

假设 5 的数学含义:W0 以外得到样本之间进行非随机选择,从而使协变量和 RiW0 的样本值相关。

具体的窗口选择过程总结如下:选择一个统计量 T(X,R),设 R(j) 是样本值 R 中的第 j 个值 (按照 i=1,,n 的顺序)。

  • 第一步:设 W(j0,j1)=[R(j0),R(j1)]j0=1j1=n 。选择最小值 j0,min 和 j1,min 使 j0,min<r0<j1,min 成立,此时 W(j0,min,j1,min) 含所需的最小样本;
  • 第二步:使用统计量 T(XW(j0,j1),RW(j0,j1)) 进行零处理效应检验;
  • 第三步:如果拒绝原假设,增加 j0,减少 j1。如果 j0<j0,min 且 j1>j1,min,则重复第二步;相反,如果 j0j0,min 或 j1j1,min,则无法选择 W0 的下端和上端。如果没有拒绝原假设,将 j[0] 和 j[1] 作为所选窗口的两端。

实施上面提出的程序需要三个部分:检验统计量、最小样本量 (j0,min,j1,min)、检验程序和相关的显着性水平 α

选择检验统计量:零处理效应的精确 RDD 原假设可以使用不同的检验统计量,如均值差异检验、Wilcoxon秩和检验、K-S检验,因为它们中的随机分布是已知的。本文采用均值差异检验统计量。

选择最小样本量:设定最小样本量的主要目标是防止在最小可能的窗口中进行假设检验时,观测值过少。本文建议设置 j0,min 和 j1,min,使在断点的两侧大约至少包含 10 个观测值。j0,min 和 j1,min 设定的越高,窗口内所包含的样本值越多,越可能是非随机实验,检验偏离假设 1 的能力越强,选择的 W0 越小。

检验方法和显著性水平 α

  • 不使用多种检验方法,只选择一种。本文采用均值差异检验。
  • α 值越大,选择的W0 就越小。选择高于常规水平的显著性水平,以便选择小的 W0。本文采用 α=0.15
  • 在每个候选窗口中对多个协变量进行精确 RDD 原假设检验时,多个检验的结果必须在一个 p 值中汇总。为了尽可能保守,我们在每个窗口的所有检验中选择最小 p 值。

3. 实证分析

3.1 研究设计

3.1.1 研究背景

美国参议院的任期是 6 年,有 100 个席位。参议院席位被划分为大致相同规模的三类 (第 I 类、第 II 类和第 III 类),每两年只有一类中的席位进行选举。每个州选举两名不同阶级的参议员。由于两名参议员属于不同阶级,每个州的参议院选举间隔为 2 年和 4 年。在两党制下,当一个政党在前一次选举中获得 50% 以上的选票时,享有执政地位,否则就失去了执政地位。这意味着:

  • 选举席位上:可以任选三类席位中两类席位进行分析;
  • 选举时间上:在 tt+1 和 t+2 三次连续的选举中,任何连续的两次选举都是不同席位的选举,因此,可以选取连续的两次选举分析反对党优势,连续三次的选举分析在任党优势。所以本文选取连续的三年选举进行分析;
  • 断点:50%。

结合上述背景,定义:

  • 在任党优势:民主党赢得参议院 A 席位对其在接下来的选举中 A 席位的选票率的影响。如果 t 时当选的议员,并且将在 t+2 时参与该席位的竞选 (由于先前在任期的作为等会影响其当期的选票),见下表的设计 II;
  • 反对党优势:民主党赢得参议院 A 席位对其在接下来的选举中 B 席位的选票率的影响,见下表的设计 I。
选举时间 A 席位 B 席位 设计和结果
t 举行选举,P 政党的 C 候选人当选 不举行选举 -
t+1 不举行选举 举行选举,C 不参与 设计 II:P 在 t 时赢得席位 A 对P在 t+1 时对席位 B 的选票率的影响 (反对党优势)
t+2 举行选举,C 是或不是 P 政党的候选人 不举行选举 设计 I:P 在 t 时赢得席位 A 对 P 在 t+2 时对席位 A 的选票率的影响 (在任党优势)

3.1.2 模型设定

研究问题:先前在任地位是否可以转化为选举的在任优势。模型设定如下:

设定 计量符号
样本 i i
样本值 在选举 t 时,政党在 i 州获得的选票率 Rit
断点值 50% r0
干预状态 在 t 时的选票率是否超过 50% 来确定干预状态,将样本划分为实验组和对照组 Zit=1(Ritr0)
潜在结果 政党在接下来选举中的选票率 t+1 时:yit+1(Zit)t+2 时: yit+2(Zit)

i 州的处理效应:

  • 在任党优势:τiIP=yit+2(1)yit+2(0)
  • 反对党优势:τiOP=yit+1(1)yit+1(0)

根据上面的模型设定,本研究将勉强赢得席位的州和勉强输掉席位的州作为实验组和对照组 (使用 “勉强” 这个词是因为在断点的领域内研究小样本),对比实验组和对照组在接下来的某次选举的情况,计算实验组选票率和对照组选票率之差 (即胜出的政党高于输了的政党的选票数),即本文的处理效应。

3.1.3 样本数据

选用 1914 年至 2010 年的美国参议院选举数据。因为议员任期内离职,该空缺职位会被州长任命,直至下次选举时选出新议员,而且被任命的议员与离职的议员大多数情况下不同属于同一个政党,因此,研究中删除在 6 年任期内离职的议员数据。共有 1390 个观测值。

* 需要注意的是,在正式运行前,需要安装最新的命令
net install rdrobust, from(https://raw.githubusercontent.com/rdpackages/rdrobust/master/stata) replace
net install rdlocrand, from(https://raw.githubusercontent.com/rdpackages/rdlocrand/master/stata) replace
net install rddensity, from(https://raw.githubusercontent.com/rdpackages/rddensity/master/stata) replace
net install rdpower, from(https://raw.githubusercontent.com/rdpackages/rdpower/master/stata) replace
net install lpdensity, from(http://fmwww.bc.edu/RePEc/bocode/l) replace
. clear all
. set more off
. set linesize 200
 
. use senate.dta, clear // 链接:https://file.lianxh.cn/data/t/T_2021_PPRN-main.zip
. global x demmv
. global y2 demvoteshfor2
. global y1 demvoteshfor1
. global c = 0
. global cov presdemvoteshlag1 demvoteshlag1 demvoteshlag2 demwinprv1 demwinprv2 dmidterm dpresdem dopen
. gen T=.              // T 干预变量
. replace T=0 if $x<0 & $x!=.
. replace T=1 if $x>=0 & $x!=.
. label var T "Democratic Win at t"
. order $x $y2 $y1 T
. sum $y2 $y1 $x $cov

    Variable |        Obs        Mean    Std. dev.       Min        Max
-------------+---------------------------------------------------------
demvoteshf~2 |      1,297    52.66627    18.12219          0        100
demvoteshf~1 |      1,341    52.41856    18.36641          0        100
       demmv |      1,390    7.171159    34.32488       -100        100
presdemvot~1 |      1,387    46.11975    14.31701          0   97.03408
demvoteshl~1 |      1,349    52.69048     18.2706          0        100
-------------+---------------------------------------------------------
demvoteshl~2 |      1,308    52.86918    18.23913          0        100
  demwinprv1 |      1,349    .5441067    .4982355          0          1
  demwinprv2 |      1,308     .543578    .4982879          0          1
    dmidterm |      1,390    .5136691     .499993          0          1
    dpresdem |      1,390    .3884892    .4875822          0          1
-------------+---------------------------------------------------------
       dopen |      1,380    .2471014    .4314826          0          1

. ttest $y2, by(T)

Two-sample t test with equal variances
------------------------------------------------------------------------------
   Group |     Obs        Mean    Std. err.   Std. dev.   [95% conf. interval]
---------+--------------------------------------------------------------------
       0 |     595    40.92053    .4989536    12.17079     39.9406    41.90045
       1 |     702     62.6217    .6147484    16.28793    61.41474    63.82867
---------+--------------------------------------------------------------------
Combined |   1,297    52.66627    .5032002    18.12219    51.67909    53.65344
---------+--------------------------------------------------------------------
    diff |           -21.70118     .810499               -23.29121   -20.11114
------------------------------------------------------------------------------
    diff = mean(0) - mean(1)                                      t = -26.7751
H0: diff = 0                                     Degrees of freedom =     1295
    Ha: diff < 0                 Ha: diff != 0                 Ha: diff > 0
 Pr(T < t) = 0.0000         Pr(|T| > |t|) = 0.0000          Pr(T > t) = 1.0000

. ttest $y1, by(T)

Two-sample t test with equal variances
------------------------------------------------------------------------------
   Group |     Obs        Mean    Std. err.   Std. dev.   [95% conf. interval]
---------+--------------------------------------------------------------------
       0 |     610    44.59452    .5748448    14.19762     43.4656    45.72344
       1 |     731    58.94751    .6990316    18.89973    57.57516    60.31986
---------+--------------------------------------------------------------------
Combined |   1,341    52.41856    .5015448    18.36641    51.43466    53.40246
---------+--------------------------------------------------------------------
    diff |           -14.35299    .9280913               -16.17366   -12.53232
------------------------------------------------------------------------------
    diff = mean(0) - mean(1)                                      t = -15.4651
H0: diff = 0                                     Degrees of freedom =     1339
    Ha: diff < 0                 Ha: diff != 0                 Ha: diff > 0
 Pr(T < t) = 0.0000         Pr(|T| > |t|) = 0.0000          Pr(T > t) = 1.0000

对被解释变量 y1、 y2 做 t 检验,结果表明,处理组和对照组的 y1、y2 有明显差异,因此后文可以进一步分析这种差异。也可以通过做散点图进行判断,如 rdplot $y1 $x, c($c) p(1)

3.2 实证结果

3.2.1 窗口选择

根据前文所说的协变量选择法进行窗口选择。步骤如下:

第一,窗口设置。 根据描述性统计结果,所有的样本值最大为 100,最小为 -100,因此设最大的窗口为 [100,100]。在窗口 [0.50,0.50] 中,断点两侧分别有 9 个和 14 个样本值,因此,设最小的窗口为 [0.50,0.50] ,将 j0,min 和 j1,min 设置约为 10。即:

  • [R(j0, min ),R(j1, min )]=[0.50,0.50]
  • [R(1),R(n)]=[100,100]

第二,窗口增量设置和协变量。 以 0.125% 的增量,在 [0.50,0.50] 和 [100,100] 之间断点附近所有的对称窗口中,对协变量都进行了随机化方法的精确 RDD 原假设检验。协变量包括:

变量 解释
presdemvoteshlag1 i 州在过去的总统选举中的投给民主党的选票占比
demvoteshlag1 t1 选举时民主党的选票占比
demvoteshlag2 t2 选举时民主党的选票占比
demwinprv1 t1 选举时民主党的获胜的指标
demwinprv2 t2 选举时民主党的获胜的指标
dopen t 选举时参议院的开放席位指标
dmidterm t 选举时中期 (非总统) 选举的指标
dpresdem t 选举时美国总统是否属于民主党的指标

第三,显著性水平设置、检验统计量的选择和随机分配机制。

  • 显著性水平:α=0.15
  • 检验统计量:均值差异。检验是基于 ZW0 的随机分布的 10000 次模拟。对每个窗口,选择这些协变量检验的最小 p 值;
  • 随机分配机制:固定边际分配机制。
. rdwinselect $x $cov, cutoff($c) wmin(0.5) wstep(0.125) reps(10000) nwin(797) ///
>     approximate plot // 797 是从 [-0.05,0.05] 到 [-100,100] 的 0.125 增量的所有窗口

Window selection for RD under local randomization
Cutoff c = 0.00   | Left of c   Right of c        Number of obs  =          1390
------------------+-----------------------        Order of poly  =             0
    Number of obs |       640          750        Kernel type    =       uniform
   1st percentile |         6            7        Reps           =             .
   5th percentile |        32           37        Testing method =   approximate
  10th percentile |        64           75        Balance test   =     diffmeans
  20th percentile |       128          150
                  |   Bal. test         Var. name    Bin. test 
      Window      |    p-value        (min p-value)   p-value     Obs<c   Obs>=c
------------------+-------------------------------------------------------------
  -0.500|   0.500 |      0.205            dopen         0.230         9       16
  -0.625|   0.625 |      0.306            dopen         0.377        13       19
  -0.750|   0.750 |      0.260            dopen         0.200        15       24
                ...
 -99.750|  99.750 |      0.000       demwinprv2         0.113       597      654
 -99.875|  99.875 |      0.000       demwinprv2         0.107       598      656
-100.000| 100.000 |      0.000       demwinprv2         0.007       600      698
Variable used in binomial test (running variable): demmv
Covariates used in balance test: presdemvoteshlag1 demvoteshlag1 demvoteshlag2 d
> emwinprv1 demwinprv2 dmidterm dpresdem dopen
Recommended window is [-0.750;  0.750] with 39 observations (15 below, 24 above).

根据前面的设定,协变量检验从最小窗口 [0.5,0.5] 开始以 0.125 的长度依次增长,rdwinselect 命令画出图 1,并推荐了窗口 [0.75,0.75]

图 1 是窗口选择的结果。x 轴为 [0.50,0.50] 和 [100,100] 之间以 0.125% 增量的所有对称窗口 (例如,x 轴上的点 20 对应于 [20,20] 窗口),y 轴为最小 p 值。图中红线和蓝线分别表示 0.15 显著性水平和 0.05 显著性水平。图 1 表明:

  • 大多数窗口内 p 值小于 0.05,意味着在 5% 的显著性水平上拒绝原假设;
  • 极少数窗口内 p 值大于 0.15。为了接受原假设为真,需要在显著性水平 0.15 之上选取 p 值对应的窗口;
  • p 值单调递减,快速递减为 0,表明大多数情况下拒绝了假设 1,即假设 1 不合理,除非非常接近断点。

前面设定 α=0.15,因此,选择的窗口是 [0.75,0.75],因为它是在 p 值大于 15% 的所有样本内,窗口最大的。该图的分析与 rdwinselect 命令推荐的窗口一致。

窗口选择过程表明,假设 1 在窗口 [0.75,0.75] 中是成立的,在其他窗口内被拒绝。对窗口 [0.75,0.75] 中的 38 个结果的进一步观察发现,这些样本不相关:竞选并不集中在特定的年份或地理区域,这 38 场选举分布在 24 个不同的年份中,在同一年份中不超过 3 个,在 26 个不同的州中最多 4 个出现在同一州,这意味着,观察结果是随机分配的,支持了假设 1。

3.2.2 在选定的窗口内进行分析

由于篇幅限制,此处只给出了 t+2 时的结果。

. * 局部多项式            
. * 参数估计:四阶局部多项式点估计
. rdrobust $y1 $x, c($c) p(4)  h(abs(-100) 100) kernel(uniform)  // t+1时
. rdrobust $y2 $x, c($c) p(4)  h(abs(-100) 100) kernel(uniform)  // t+2时

Sharp RD estimates using local polynomial regression.
      Cutoff c = 0 | Left of c  Right of c            Number of obs =       1297
-------------------+----------------------            BW type       =     Manual
     Number of obs |       595         702            Kernel        =    Uniform
Eff. Number of obs |       595         702            VCE method    =         NN
    Order est. (p) |         4           4
    Order bias (q) |         5           5
       BW est. (h) |   100.000     100.000
       BW bias (b) |   100.000     100.000
         rho (h/b) |     1.000       1.000
Outcome: demvoteshfor2. Running variable: demmv.
--------------------------------------------------------------------------------
            Method |   Coef.    Std. Err.    z     P>|z|    [95% Conf. Interval]
-------------------+------------------------------------------------------------
      Conventional |  9.4071     1.6928   5.5570   0.000    6.08916       12.725
            Robust |     -          -     4.0211   0.000    4.07894      11.8365
--------------------------------------------------------------------------------

. * 非参数估计:局部多项式非参数点估计
. rdrobust $y1 $x, c($c) kernel(triangular) bwselect(mserd) all  // t+1时
. rdrobust $y2 $x, c($c) kernel(triangular) bwselect(mserd) all  // t+2时

Sharp RD estimates using local polynomial regression.
      Cutoff c = 0 | Left of c  Right of c            Number of obs =       1297
-------------------+----------------------            BW type       =      mserd
     Number of obs |       595         702            Kernel        = Triangular
Eff. Number of obs |       360         323            VCE method    =         NN
    Order est. (p) |         1           1
    Order bias (q) |         2           2
       BW est. (h) |    17.754      17.754
       BW bias (b) |    28.028      28.028
         rho (h/b) |     0.633       0.633
Outcome: demvoteshfor2. Running variable: demmv.
--------------------------------------------------------------------------------
            Method |   Coef.    Std. Err.    z     P>|z|    [95% Conf. Interval]
-------------------+------------------------------------------------------------
      Conventional |  7.4141     1.4587   5.0826   0.000     4.5551      10.2732
    Bias-corrected |  7.5065     1.4587   5.1460   0.000    4.64747      10.3655
            Robust |  7.5065     1.7413   4.3110   0.000     4.0937      10.9193
--------------------------------------------------------------------------------

. * 随机化方法            
. * 最优带宽选择
. rdwinselect $x $cov, cutoff($c) wmin(0.5) wstep(0.125) reps(10000) nwin(797) ///
>     approximate plot // 797 是从 [-0.05,0.05] 到 [-100,100] 的 0.125 增量的所有窗口

. * 基于所选带宽的随机化估计
. global window = 0.75
. rdrandinf $y1 $x, cutoff($c) wl(-$window) wr($window) reps(10000) interfci(0.15) ci(0.05) // t+1时
. rdrandinf $y2 $x, cutoff($c) wl(-$window) wr($window) reps(10000) interfci(0.15) ci(0.05) // t+2时

Selected window = [-.75 ; .75]
Running randomization-based test...
Randomization-based test complete.
Inference for sharp design
Cutoff c = 0.00   |  Left of c  Right of c        Number of obs =           1297
------------------+-----------------------        Order of poly =              0
     Number of obs|        595         702        Kernel type   =        uniform
Eff. Number of obs|         15          22        Reps          =          10000
   Mean of outcome|     42.808      52.497        Window        =    set by user
   S.D. of outcome|      7.042       7.742        H0:       tau =          0.000
            Window|     -0.750       0.750        Randomization =  fixed margins
Outcome: demvoteshfor2. Running variable: demmv.
--------------------------------------------------------------------------------
                  |              Finite sample             Large sample
                  |             ---------------  -------------------------------
         Statistic|      T           P>|T|         P>|T|   Power vs d =     3.52
------------------+-------------------------------------------------------------
    Diff. in means|      9.689       0.000          0.000                  0.300
--------------------------------------------------------------------------------
Calculating confidence interval...
Confidence interval for w = [   -0.750 ,     0.750]
------------------------------------------
         Statistic|   [95% Conf. Interval]
------------------+-----------------------
    Diff. in means|      4.790      14.590
------------------------------------------

t+1 和 t+2 两个选举的结果如表 3 所示。

表 3 对比了我们的随机化方法的结果和两种经典方法获得的结果。列 (1) 报告了四参数拟合的回归结果;列 (2) 报告了三角核函数的非参数局部线性回归结果,用均方差误 (MSE) 选择最优带宽;列 (3) 报告了本研究提出地随机化方法的政党优势估计和检验,其中,选择的窗口是前文所分析的 [0.75,0.75]

面板 A 展示了设计 I 中在任党优势的结果,被解释变量是民主党在 t+2 选举中的得票数。面板 B 提出了关于设计 II 反对党优势的结果,被解释变量是民主党在 t+1 选举中的得票数。

面板 A 的第一行中的点估计值显示,标准 RD 方法认为在任党优势效应约为 7 至 9 个百分点,而随机化方法认为有 9 个百分点,而且三种方法的 p 值都较低。三种方法都表明,对于同一席位,在任政党具有很大的优势。而且随机化方法相当于对标准 RDD 方法做了稳健性检验,上述结论稳健。

面板 B 的结果也表明反对党优势效应约为 0.35-0.64,较小而且均不显著,因此无法拒绝零处理效应的假设,认为美国参议院选举中不存在反对党优势。而随机化方法的点估计为负数,也不显著,表明反对党优势或许不存在。

回归分析结果表明,标准 RDD 方法使用远离断点的数百个观测值进行局部或全局估计,估计的结果与随机化方法分析所使用的 38 个小样本估计结果基本一致。结论通过图 2 进一步得到证明。

图 2 设计 I 的两图是在 t+2 选举时,局部线性回归确定的最佳带宽为 [16.79,16.79]。随机化方法的带宽为 [0.75,0.75],是民主党在 t 选举获胜的边际与民主党在 t+2 选举的选票率之间的关系图。图中的点是选票率的平均值。以上表明:

  • 表明局部线性回归中,断点附近出现了明显正跳跃;
  • 表明在窗口 [0.75,0.75] 两侧的民主选票率的平均值在断点处出现较大的正跳跃。

图 2 设计 II 的两图是在 t+1 选举时,局部线性回归确定的最佳带宽为 [23.27,23.27],随机化方法的带宽为 [0.75,0.75],民主党在 t 选举获胜的边际与民主党在 t+2 选举的选票率之间的关系图,图中的点是选票率的平均值。以上表明:

  • 表明局部线性回归中,断点附近没有出现明显跳跃;
  • 表明在窗口 [0.75,0.75] 中,对照组的均值略大于处理组的均值,而且在断点处出现不太明显的负跳跃。