Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:王曦池 (中山大学)
邮箱:649039475@qq.com
编者按:本文主要摘译自下文,特此致谢!
Source:Valentim V, Núñez A R, Dinas E. Regression discontinuity designs: a hands-on guide for practice[J]. Italian Political Science Review/Rivista Italiana di Scienza Politica, 2021, 51(2): 250-268. -PDF-
目录
Valentim 等 (2021) 为学术界在应用研究中使用 RDD 提供了一个基于直觉、面向实践的指南。本文介绍了 RDD 基本的工作原理,提供了帮助进行稳健性检验的检查表,并简要介绍了一些应用 RDD 的阅读清单,帮助你激发灵感。该指南技术性较低,目的在于为 RDD 初学者提供垫脚石,很适合初学者的快速入门。
当我们想考察任期对之后的选举结果的影响时,我们该如何做?
直接回归:你首先可能会想到将之后的选举结果设定为一个虚拟变量,1 表示选举胜利,0 表示选举失败。这样的设定会产生一些问题:那些能获得选举成功的人,可能在能力方面和未获得成功的人有差别,而这些能力方面的差别将同样影响之后的选举结果。
加入控制变量:接下来,我们很容易想到通过加入控制变量,来解决直接回归导致的问题。但是,现实中总有因素无法度量或观测,我们永远无法自信地说出:自己已观测和控制了所有可能影响选举结果的因素。
将结果随机分配给样本:从理论上讲,一种可行的方法是抽取政治家的样本,随机赋予其中一半人赢得选举,另一半人输掉选举,然后测量他们在选举中的表现。这种方法可以将所有混杂变量的中心趋势在预期中跨组收敛到相同的值。但在现实中,就像是我们无法对实验对象随机施加暴力一样,这样的做法是不道德、不可行的。
RDD:前面三种方法都各有缺点,那么面对这类问题,我们该如何研究呢?RDD 或许是一个不错的选择。RDD 是被认为最接近随机实验的检验方法,能够缓解参数估计的内生性问题。
Lee (2001) 使用 RDD 的思路估计在任对连任的影响。进入 21 世纪以来,RDD 在社会科学中越来越常见,每当存在有一个固定的 门槛/分界点 能够划定实验组与对照组时,RDD 就会被考虑使用。和其它方法相比,它具有以下优势:
RDD 的底层逻辑是:在分界点上,除了我们关心的处理效应 (treatment) 外,没有其他因素 (个人能力、资金等) 会导致结果跳跃。这意味着在分界点两侧,即接近胜选 (但落选) 和恰好胜选的实验对象,是良好的反事实估计。
接下来的例子使用 Dinas 等 (2015) 的原始数据,本例和第一部分提出的问题相似,试图解决在多党制下,小党的议会代表权是否使他们更有可能在随后的选举中取得成功。下图为该例子的图形结果:
下面我们主要从 RDD 的识别和估计两个步骤展示 RDD 过程,最后再简要介绍模糊 RDD 的两阶段。
RDD 所需的唯一假设,要求潜在结果在 treatment 附近连续平滑移动。根据这一假设,发生在不连续点的唯一变化是治疗状态的转变
横轴
纵轴
因果效应
我们最多观察到两个潜在结果中的一个。故为了解决这个问题,我们常观察群体层面的影响,即估计和观察以下效果:
现在我们知道了 RDD 的一些基本设定,那么,我们如何识别我们期望得到的效应 τ 呢?
由RDD的连续性假设知,潜在结果会在分界点 (c) 区域平稳移动。
回到例子中,我们通过比较刚刚超过选举门槛的政党和刚刚低于门槛的政党,便可以确定进入议会对随后的选举成功的影响:
又因为当
当我们识别完成这个效应后,我们又该如何估计这个效应的大小呢?下面我们将从参数估计、非参数估计两个角度估算效应。虽然参数化方法更加直观,但我们更建议大家关注非参数估计。
逻辑:估计当运行变量收敛为零时,函数右极限和左极限之间的差异。下表为式 1-3,我们将逐步改进函数形式,放松潜在假设,得出更完善、通用的 X 与 Y 间的函数关系。
注意:对于参数估计,我们真正感兴趣的是
逻辑:对于非线性问题,不用多项式去逼近,而是通过关注分界点左右的小区域,消除非线性的可能性。是一种局部线性回归。对于本文的例子而言,即仅关注在
带宽 (bandwidth):选择观测的范围。对带宽的选择,涉及偏差—方差权衡 (bias-variance tradeoff)。
到目前为止,我们只考虑了以下情况:用给定的分界点
逻辑:分界点不是确定地分配组别,仅改变成为实验组的概率。高于临界点的进入实验组的概率较高,低于临界点的进入对照组的概率较高。
模糊 RDD 假设:
模糊 RDD 的两阶段步骤:
接下来,我们将提供一个检查表,并简要介绍其原因、方法和注意事项,帮助使用者们了解他们应该在使用 RDD 中进行的主要稳健性检查。
绘制出与阈值距离有关的分布条件:绘制原始数据已逐渐成为 RDD 中的标准做法。帮助直观的感觉到分界点周围的不连续性。
rdrobust
软件包,可以轻松绘制上述图像。注重非参数模型:参数估计使用全样本,对远离分界点的观测值给予了过多的权重,可能使估计结果产生较大噪声(Gelman 和 Imbens,2019)。
显示使用不同带宽的结果:理想情况下,估计系数值不会受带宽的影响 (但可能损失统计精度)。报告一个有大量带宽的图(集中在最佳带宽附近的 0.5-2 倍)。具体来说,可以在
进行操纵测试:由于发生了自我选择,使存在操纵行为 (manipulation)。导致不能再假设围绕阈值“跳跃”的唯一东西是概率。这会混淆人们感兴趣的估计关系。方法包括 (1) 对分类的初步检验 (McCrary,2008);(2) 使用 RDD 包实现 (推荐)。
使用安慰剂结果进行重复分析:RDD 要满足连续性假设,研究者应使用安慰剂检验证明 (至少) 重要观察变量不会出现不连续。方法是用这些观察变量取代结果变量。
使用安慰剂分界点进行重复分析:根据连续性假设,除了阈值附近的变量外,结果变量不应出现跳跃。进行多次安慰剂阈值测试,可增强结果的可信度。方法使用实际阈值以外分界点来重复分析。
效果的异质性需要谨慎对待:通常面对异质性,会使用交互项解决问题。但是在 RDD 中,这种方法不再奏效,甚至会导致严重的过度预测问题。方法包括:(1) 依照 Abadie (2005) 中的倾向得分加权法;(2) Gerardino 等 (2017)、Hsu 和 Shen (2019) 提供了一个 Stata 软件包 rddsga
。
对于参数化估计,不需要使用特定的软件包,其研究思路沿袭 OLS 回归。
对于非参数化估计,常使用软件包 rdrobust
实现。
rdrobust
,可输出常规 (conventional)、偏差校正 (bias-corrected)、稳健 (robust) 这三种结果;rdplot
,可绘制图表;rdensity
,估计断点附近样本单位的密度;fuzzy
,可将默认的清晰 RDD 调节为模糊 RDD。
这一部分将提供了 5 个使用 RDD 的经典场景,每个场景中又将分为不同的研究方向。我们将简要分析每种场景中使用 RDD 设计的背后逻辑,并介绍一些使用这种设计来回答不同研究问题的论文。
逻辑:政治学中最常用的 RD 设计之一是由选举结果产生的不连续性。某一政党的得票率是连续的,研究人员可以利用选举胜利门槛 (通常是 50% 的选票) 附近的跳跃来估计这种胜利对感兴趣结果的影响。
研究方向1:在职优势的影响
研究方向2:选举胜利对政治精英行为的影响
研究方向3:担任职务的货币和非货币回报
逻辑:世界上许多国家都有法律规定的选举门槛,只有跨过这些门槛的政党才能获得议会代表权。这些门槛带来了一个政党进入议会的概率的“跳跃”,研究人员可以利用它来估计议会代表制对一些感兴趣的结果的影响。
研究方向1:跨过选举门槛对之后政治成功的影响
研究方向2:一个政党在议会中的代表权如何影响其余政党
逻辑:许多国家的规则只适用于人口高于某一特定门槛的地区。可以通过比较人口刚刚超过阈值的地区和人口刚刚低于阈值的地区,来确定某种制度的影响。
研究方向1:不同选举规则和民主规则的影响
研究方向2:政治家工资和资源转移的影响
逻辑:民主国家的公民在达到法定年龄时获得投票资格,这使年龄略小者和刚刚达到年龄者间产生不连续性。
研究方向:投票的习惯养成的影响
逻辑:一些地理分界线的划分决定了两侧的地区受到不同的历史、政策等的影响,存在不连续性。
研究方向1:冲突地区战争线的影响
研究方向2:技术可及性限制的影响
研究方向3:边界和行政区划的影响
随着 RDD 在学术界变得愈加普遍,我们可查询到的相关资料也往往变得更加高深、更具技术性。而这对于新入门者而言,无疑是筑高了学习门槛。
就像是本文的作者 Vicente Valentim 等一直强调的那样,本文意在抵制这种趋势,提供一个基于直觉的 RDD 介绍。对于新手而言,这篇文章是一个敲门砖,帮助研究者由简入深。对于老手而言,本文更像是一个综合指南,提供测试清单并激发灵感。
总而言之,本文从应用角度入手,指导实践。希望无论你是 RDD 新手还是老手,这篇文章都能帮助到你。
Note:产生如下推文列表的 Stata 命令为:
lianxh rdd, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
和songbl
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh