50问-T2:面板数据因果推断常见问题-对话徐轶青老师

发布时间:2022-10-19 阅读 1078

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

整理:郑晓雪(南开大学)
邮箱:1547241075@qq.com


目录 [TOC]


温馨提示:10  30 日前都接受报名

10 月 15-16 日,斯坦福大学徐轶青老师讲解了「面板数据因果推断」专题的第 1-2 讲。课后的答疑环节讨论非常热烈,先整理出来供大家学习。

本文简介

因果推断第二讲中,徐老师主要讲解了:

  • 经典双重固定效应模型的模型和假设
  • 点估计和不确定性估计
  • 采用动态处理效应识别关键假设

徐老师进一步以宗族和公共品提供、疟疾根治运动与人力资本积累、宗族与饥荒三个实例的研究和操作代码讲解了如下几个主题:

  • 离散处理变量双重固定效应模型
  • 连续处理变量的双重固定效应模型
  • “广义”倍差法

新颖、细致、前沿的课程内容引发学员广泛参与,共提相关课程疑问 60 余条。

本文整理前两讲中学员有关课程中面板数据选取和处理、统计推断及估计偏误、数据匹配、“赛马”机制、控制变量选取、聚类问题、异质性研究、研究结果解读、研究实操中所遇到和关注的问题,并由徐老师和助教一一解答。

课程概况

  • 时间: 2022 年 10 月 15-16 (已上线);22-23;29-30 日
    • 讲授: 9:00-12:00,答疑: 12:00-12:30
    • Note:如此安排,让大家有充裕的时间复习、演练和阅读相关论文。
  • 方式: 网络直播 + 回放
  • 授课方式: 幻灯片+Stata16/17 实操演示,全程电子板书+Stata 演示截图,课后以 PDF 形式分享给学员。
  • 授课嘉宾: 徐轶青 (斯坦福大学)
  • 全程答疑: 20 位经验丰富的助教,答疑文档公布于 课程主页。
  • 课程主页: https://www.lianxh.cn/news/b335ff50a929f.html
  • 报名链接: http://junquan18903405450.mikecrm.com/lgGhkTZ
  • PDF 课纲: https://file.lianxh.cn/KC/lianxh_CIP.pdf

温馨提示:10  30 日前都接受报名

扫码查看课程详情:

1. 面板数据选取与处理

Q:国内准自然实验的论文中,在进一步研究部分,那个横截面分析是什么意思?这种情景中的横截面是什么意思?

A:国内准自然实验论文的进一步研究部分中横截面分析就是异质性分析,依据不同区域、性别、企业性质、要素密集度等不同的截面进行异质性分析。
(回答人:冀承)

Q:非平衡面板和混合横截面的区别是什么?混合横截面是直接用横截面方法处理吗?

A: 非平衡面板和混合截面还是有差别的。非平衡面板数据中还有部分人(样本个体)是有连续多次的观测数据,但混合截面数据至少说不知道数据中有没人(个体)是重复的。混合截面处理要求更加高一点,但是其实可以加上时间效应去做,但是加个体效应就比较难。混合截面的关键是要让它的 composition (组成),就是让两个截面可以观察到的个人特征变量 composition 比较接近,比较接近之后,再去做一个前后的 difference (差分),因为你没有办法在个体层面直接根据个体的 id 去做 difference (差分),所以要用协变量来定义,这是二者的差别。混合截面要比纯截面要稍微好一点,但是它比面板要差。
(回答人:徐轶青老师,整理人:陈希)

Q:有什么具体的 data cleaning 命令和方法吗?检验和处理老师刚刚提到的 AGE 跳跃等异常值问题的吗?

A: 一般来说用 Stata 做的时候,就是要找一些数据中的一些逻辑关系,然后一个一个去检验这些逻辑关系是不是符合。比如说, age 就要随年份有一个线性增长的关系;或者 bounding 的话,就不能超过 0 和 1,其实就是逻辑关系的审查。亦可参考如下推文:

(回答人:徐轶青老师、屠西伟,整理人:陈希)

Q: 请问老师面板数据时间必须是连续的吗?比如 12,14,15,17 年的调查数据。

A: 面板数据不一定必须是连续的,只有 12、14、15、17 年的数据是非平衡面板。一般面板数据大多是非平衡面板,如果数据的缺失不是某些非随机因素造成的,也可以进行面板模型估计。
(回答人:徐轶青,整理人:刘佳宁)

Q:请问老师面板数据里有一年确实很严重(提取数据时导致的缺失),可以将这一年直接删除再用剩余年份数据进行 event study 分析吗

A: 可以将这一年所有数据删掉,这没有什么问题。
(回答人:徐轶青,整理人:刘佳宁)

Q:老师好,请问个体层面的混合截面,但是城市是平衡的,可以说是城市层面的面板吗?

A: 如果不同年份之间城市层面的个体结构保持不变,例如性别比例,此时可以生成城市层面的统计量,做城市层面的面板,相当于使用城市层面某一时间的样本代表这个城市,但需要保证样本的“可代表性”。
(回答人:徐轶青,整理人:冯超楠)

Q:老师好,请问数据时间没有包含政策时间,比如政策是 2013 年实施,但是只有 2014 与 2018 年数据,能做 DID 吗?

A: 不能。因为做 DID 需要政策实施前后的数据,政策于 2013 年实施,需要准备 2013 年前后的数据。2014 与 2018 都是政策实施后,缺乏政策实施前的数据,所以不能。(解答:徐老师;整理人:王舒瑶)

Q:老师提到的传统 + 新方法,是不是需要保持样本的一致性?比如非平衡面板做 TWFE,但是拓展部分就不能做 SDID 吗?SDID 需要平衡面板,需要在基础回归上删除样本,是不是就不能选择 SDID 了。

A: 样本需要保持一致性,一般需要平衡面板。非平衡面板存在一些数据缺失,这些数据缺失可能是一种自选择行为。
(回答人:王凯璇;整理人:屠西伟)

2. 统计推断及估计偏差

Q:老师好,置信区间和显著性的含义

A: 置信区间展现的是这个参数有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度。显著性指零假设为真的情况下拒绝零假设所要承担的风险水平。(解答:徐老师;整理人:王舒瑶)

Q:请问老师 CI 一直在用,但实际含义是什么一直不知道。

A: 数理统计学中,我们将用来进行合理推断的已知数据称为样本,将被合理推断的未知数据称为参数,将这种推断方法称为参数估计。
在区间估计中,需要给出一个置信区间(Confidence Interval,简写为 CI),并预测真正的参数 θ 以一定的概率存在于这一区间的方法。这一区间覆盖真实值的概率被称为置信系数。置信区间用区间的端点 θ^1 与 θ^2 表示,θ^1<θ^2 。当给定常数 α(0<α<1),若有

成立,则称 θ^1 到 θ^2 这一区间能够覆盖真值的概率为 1α。这样的区间为待估参数 θ 的 1α 置信区间,1α 称为置信系数或置信水平 (confidence level,简写为 CL), α 称为显著性水平。
扩展阅读:

(回答人:徐轶青,整理人:刘佳宁)

Q:残差的序列相关和误差的序列相关有什么区别?

A: 需要区分残差和误差的区别。简单来说,误差是由于模型设定本身存在的问题,例如研究教育回报率时,如果不控制能力就会导致误差项中包含能力等因素。残差是指在使用回归方程进行估计的过程中不可被解释变量解释的部分。误差针对模型设定,残差针对回归使用的具体样本数据。
(回答人:王本丞)

Q:残差或者误差的序列相关,不违反 twfe 的强外生性假设吗

A: :误差的序列相关性对于统计推断存在影响,所以在实际中我们需要对标准误进行调整。一般来说我们通过聚类标准误处理可以有效解决误差的序列相关性问题。这是从 Duflo(2004)的经典文献以来的常用做法。
Marianne Bertrand, Esther Duflo, Sendhil Mullainathan Reviewed work(s):, 2004. How Much Should We Trust Differences-in-Differences Estimates? QJE 119, 249–275. https://doi.org/10.1162/003355304772839588
(回答人:王本丞)

Q:为什么 Heckman two-stage 的估计结果不可信?如果 Heckman 不可信又要修正 Sample selection bias 的话,应该采用那种估计方法?

A: 不可信有两个原因:一是模型假设太强,真实事件要比设定模型复杂得多;二是缺失关键变量,关键混淆变量没有的话,模型设定的再精确、再复杂,估计也会产生误差。有些数据就是无法修正 sample selection bias,有的数据模型是不对的,我们估计出来结果也没有意义。我们只能寻找合适的数据和模型进行估计。
(回答人:徐老师;整理人:王胜文)

Q:论文中模拟实验系数估计的真实标准差是多少?用 cluster 估计的标准误跟真实标准差有多大的差距?

A: 这个我们下周会具体讲。
(回答人:徐轶青,整理人:郭盼亭)

Q:三重差分模型而且是 staggered 多期分批实施的,根据最新文献,这种的偏误应该用什么方法纠正,目前的方法好像都是针对双重差分。

A: 这是我们第三讲和第四讲的核心内容,这并不是三重差分的偏误,三重差分是倍差法的异质性,倍差法在 staggered 的情况下就是会有偏误的。我们要解释偏误的来源以及如何克服,再做三重差分就是在这个基础上做效应的异质性。
(回答人:徐轶青,整理人:郑晓雪)

Q:老师好,昨天您提到因果推断假设总体有限,而传统估计假设总体无限。请问两者有什么具体区别呢?或者说在有限总体假设下是如何保证估计结果的一致性呢?谢谢

A:因果识别的总体可以是有限和无限的,这里的意思是假定拥有总体的信息,能不能识别总体的因果参数。统计推断,是由于我们在实际中只能得到总体的一部分样本信息,我们能不能利用有限的样本信息去估计能够反映总体参数的信息。实际推断的样本就是有限的,因果识别是建立在总体上的,用有限的信息推断总体的信息叫做统计推断。如果保证一致性,就是我们需要借助各种因果识别的模型(DID/RDD)等等,在各自的识别假设下,去利用有限的样本一致估计出总体的因果参数。
(回答人:屠西伟)

Q:课程上说双重固定效应的 OLS 回归是一致估计,但 D 和 X 存在多重共线性,这不是会导致评估有偏吗?

A: D(it)和 X 一般不会存在多重共线的问题,在强外生性等条件满足情况下,双向固定效应的估计才是一致估计。
(回答人:屠西伟)

3. 数据匹配

Q:老师请问单独采用 PSM 和单独采取 DID 都是为了解决非随机分组内生性问题吗?DID 比 PSM 优势在哪里,以及为什么有文章直接采用 PSM-DID,有时仅仅做 PSM 稳健性检验?

A: 在 DID 中配上 PSM 是为了让平行趋势假设更容易成立,在截面数据中用 PSM 还是基于观测量选取(Selection of observable),后面课程会详细讲解。
(回答人:徐老师;整理人:王胜文)

Q:老师好,PSM-DID 很少在英文顶刊上看到,这方法有什么问题吗,可靠吗?

A: PSM 并不能起到解决样本选择偏差的作用,结果的可信度存在一定局限。(解答:徐轶青;整理人:王舒瑶)

Q:徐老师好,想请教一下倾向得分匹配最合适使用的场景是什么?有的文章说用于解决样本自选择,这种说法是否正确?

A: PSM 只是通过匹配的方式在一定程度上避免了函数形式错误设定导致的偏差,并没有从根本上解决由选择偏差或遗漏变量所导致的内生性问题。具体细节可以参照连享会推文:

4. 赛马机制

Q:请问什么叫赛马的交叉项?

A: 赛马,顾名思义就是存在很多个因素可能同时影响被解释变量,这个时候我们可以都扔到模型中看看哪一个因素更加显著。
以徐老师 JDE 的文章为例,文章主要讨论的是宗族和饥荒对于死亡率的影响,但是一方面宗族可能通过影响其他因素影响死亡率,另一方面存在其他的因素直接影响死亡率,所以可以通过控制赛马交叉项 ZcFaminet 来控制上述因素,这里的交叉项可以理解为调节效应。通过控制赛马交叉项可以有效控制其他干扰因素,服务与因果推断,同时明确核心解释变量的统计显著性和经济显著性意义。
(回答人:王本丞)

Q:为什么这两篇复现的文章,前者算倍差法,后者不算,两篇的本质差别是什么?

A: 第一篇文章宗族与公共品提供是一种标准的多期 DID 设计,核心解释变量是大姓村主任的虚拟变量,满足 DID 的一般性假设条件。
第二篇文章宗族和饥荒对死亡率的影响虽然存在宗族和饥荒两个维度上的差异,但是并不服从 DID 研究设计的要求,例如处理前后的平行趋势并不能识别因果效应,因为还要其他混杂因素的影响。
所以,文中的处理更多的是一种调节效应,并考虑了“horse race”来明确宗族效应的强弱。徐老师认为并非所有在两个维度具有差异的回归都可以被视为 DID,现在很多称作“广义双重差分”的研究严格来看并不是 DID 设计。
(回答人:王本丞)

Q:在赛马的交叉项 X1*X2 model 中 为什么不把 X1 X2 也加入到 model?

A:ZcFaminet为例,在控制双向固定效应之后,地区层面的变量Zc被县固定效应吸收,时间层面的变量Faminet被时间固定效应吸收,因此只需要保留交叉项,这个利用 TWFE 估计 DID 设计中只需要保留交叉项是一致的。
(回答人:王本丞)

Q:赛马的这个处理机制,还有没有什么文献还能参考一下呢?

A: 提供一些相关的参考文献:

  • 江艇,2022:《因果推断经验研究中的中介效应与调节效应》,《中国工业经济》第 5 期。
  • Chen T, Kung J K, Ma C. Long Live Keju! The Persistent Effects of China's Civil Examination System[J]. The Economic Journal, 2020.
  • Cao J, Xu Y, Zhang C. Clans and calamity: How social capital saved lives during China's Great Famine[J]. Journal of Development Economics, 2022, 157: 102865.
    (回答人:王本丞)

5. 控制变量选取

Q:徐老师,请问差分里面控制变量的作用是为了排除自选择吗?和普通回归方法的控制变量有区别吗

**A:**DID 与普通回归中控制变量用来在回归分析中缓解混杂变量对因果效应估计的干扰,DID 中更加关注 D 的处理效应,对控制变量的解释不作为重点。具体关于控制变量的影响、作用和选择。可以参考连享会推文 (Stata 命令:lianxh 控制变量):

Q:如何理解 did 没有协变量不显著,加了协变量显著

**A:**在多元回归中缺失协变量时可能存在由于遗漏变量偏误所导致的内生性,因此在无协变量的条件下教程交乘项系数可能是有偏的,由此导致不显著。加上协变量后一定程度上缓解了由于遗漏变量导致的内生性问题,因此 did 回归系数可能发生改变。具体原因需要结合研究者对于识别策略的认知。更多内容可关注伍德里奇《计量经济学导论》第三章内容。
(回答人:张铭鑫)

Q:通常要满足 D 与 Y 是满足平行趋势的,也允许 x 与 d 相关;但如果想排出个体会对 D 的实施有策略调整,即 X 调整,想看看 D 是否对 X 产生影响,这时候要满足平行吗?即便 D 对 Y 的影响控制了 X。比如在政策正式实施前就有政策的 announce, reviewer 想看 observed effect 不受个体对 x 调整的影响

A: 首先 X 的控制变量是事前变量,意思是 X 对 D 可以产生影响,但 D 对 X 产生影响是不行的,会产生 Bad control 的问题。另见:

Q: 老师,请问协变量填补主要有哪些方法?

A: 有多重填补法、多重填补数据分析法、敏感性分析法,等等。但是,要注意面板数据的协变量填补比较难,因为维度比较高;一般来说在截面中填补协变量是通过相关性进行填补,但是在面板数据中比较难。
(回答人:徐老师;整理人:王胜文)

6. 聚类问题

Q:bootstrap 使用时在更高层面聚类会提醒有重复的年份,是不可以在更高层面聚类吗?

A: 可以在更高层面聚类,重复也没关系的。
(回答人:徐轶青,整理人:郑晓雪)

Q:写代码时所提到的聚类是什么含义?聚类与不聚类有什么区别,为什么会对结果产生比较大的影响?一般情况下都需要进行聚类吗,应该对什么变量进行聚类,会有什么样的好处?

A: 聚类是对回归系数标准误的调整方式,根据徐老师的建议,应当将标准误聚类到发生变化的最小层次,例如当关键变量是地区层面的变量时应当将回归系数的标准误聚类到地区层次。关于什么是聚类,为什么要聚类以及聚类的影响可以参见如下推文:

扩展阅读:

(回答人:张铭鑫)

Q:想请问一下老师,聚类的类别最小能否到固定效应的层级?比如如果是个体固定效应,聚类能否聚类到个体层面?

A: 聚类和固定效应本身并没有对应关系,一般而言聚类层级越高,对于相关性矩阵所施加的参数假设越少,结果越稳健。因此,如果本身控制了个体固定效应或者双向固定效应,为了结果更稳健,应该聚类到更高层面,例如村庄或县级。

7. 异质性研究

Q: 老师刚刚提到的传统回归异质性有些问题,那里不大理解,好多文献都是做分组异质性讨论,是 DID 做异质性分析比较好么?为什么 DID 也异质性分析呢,解释变量大部分都是 0,仅有几个 1,分组的话有的就是仅仅使用 0 去对 y 做回归?

A: 不管是分组回归也好、交叉项回归也好,都是对异质性的探索,都是在一个线性模型的框架下面,只是把原来的 β 变成了 β0+β1*x,这前提是要允许异质性的存在,比如说贫穷省份和富裕省份效果不一样,允许男士和女士效果不一样,但是这仍然是有限的异质性,因为真正异质性是每个个体都是异质的,也就是说分组要比不分组好。但是因为数据是有限的,我们不可能无限的分组,所以在进行回归时,除了几个特殊变量,比如性别,地区东中西,其他的参数我们看做是一致的。大部分时间不是要去估计个体的因果效应,虽然存在,但是我们不直接估计每个个体因果效应,一般都是估计个体平均因果效应。第二节课会详细讲解。
(回答人:徐老师;整理人:王胜文)

8. 研究结果解读

Q:老师之前的问题“论文系数增加一个标准差导致 Y 增加多少” 感觉是在问 如果 D 是一个连续变量 如果现在得到一个他的系数 beta 那么增加 D 的一个 std.dev 会改变 Y 多少

A: 这个说法是对的,如果 D 从 0 变为 1,并不需要对 D 做标准化。但如果 D 是个连续变量,就可以对 D 做标准化,看 D 变化一个标准差 Y 如何变化。
(回答人:徐轶青,整理人:郑晓雪)

Q:对于这种情况 X 和 Y 标准化之后做回归是不是能够直接得到上一楼说的 beta?

A: 是能够直接得到 beta,但不要对 X 进行标准化,对 Y 做标准化。
(回答人:徐轶青,整理人:冀承)

Q:论文中说系数增加一个标准差导致 Y 增加多少,这个如何理解,是怎么算的?

A: 实证研究中,自变量 X 变化一个标准差,因变量 Y 变化了多少?具体而言,有两种理解:一是因变量 Y 变化了多少个单位标准差(百分比变化) = 两者系数 _ 自变量标准差/因变量标准差;二是因变量 Y 变化了多少 = 两者系数 _ 自变量标准差。
(回答人:徐轶青,整理人:冀承)

Q:如果 D 是一个因子分析后的综合指标,bata 系数应该怎么理解

A: 因子分析将原有具有单位的指标无量纲化,D 这里可能只能解释变化一个单位,y 变化多少。
(回答:屠西伟)

Q:有的文献中利用 exp(beta)-1 解释 x 增加一个标准差导致 y 增加多少,beta 是 x 的系数值,请问这中做法的理由是什么?

A: 如果回归方程的设定形式为 ln(y) = beta*x + e,所预计的 y 的精确比例变化为 y= exp{beta}-1,乘 100 后变成百分比变化,即 x 变动 1 单位,y 变动 100(exp{beta}-1)%。具体可以参考伍德里奇《Introductory Econometrics》第 6 章。 对于系数的具体理解需要结合回归模型的设定进行分析。 关于回归系数解读的更多内容可见推文:

9. 研究实操

Q:xtreg 命令有没有将估计方法自动修正为投射法?还是说对非平衡面板直接使用 xtreg 的 fe 选项,得到的结果是错的?

A: xtreg 命令现在大家就不要用了,它不太好用,现在大家可以用 areg 或者 reghdfe。xtreg 的点估计没有问题,但是 standard error 就有问题。
(回答人:徐轶青,整理人:郭盼亭)

Q:老师可以分享一下“来自模拟的证据”的例子的 code 吗

A: 我在 lecture2 里边有一个 simulation,晓燕老师应该已经分享给大家了,那个很接近这个例子,我下周会跑一下给大家看。
(回答人:徐轶青,整理人:郭盼亭)

Q:coverage probabilities 如何在 stata 里面操作实现?

A: 我觉得不能直接在 stata 里边实现,需要写 simulation 的代码。我没有在 lecture 2 做这部分,因为它比较慢,而且对大部分老师来说,这个用处不是很大,但是如果你以后想做一点点计量或者应用计量的话,这个是很首先它不难,它就是个 for loop,其次,这个你需要知道这个怎么回事儿。
(回答人:徐轶青,整理人:郭盼亭)

Q:徐老师能举个例子讲讲您刚刚说的第一步画数据那里么,比如您重点看结果中的哪些问题?

A: 我不知道你说的是指数据描述还是 DID 前边的第一步,我猜你可能是讲数据描述,数据描述就是需要给大家一个概念,最好的情况是你在没有控制 fixed effect 的情况,就是在横截面和时间维度上都混在一块儿的情况下,可以看到 treatment 组和 control 组或者 X 如果是连续的,有某种相关性,就可以告诉大家,虽然不能解释为因果性,但是一个粗的相关性至少是存在的,而且它不是我利用后面的统计操作或者很奇怪的模型搞出来的。然后我们再去把外面各种各样的干扰的因素去除掉之后,看核心的因果的效应是怎么样,这样会比较容易说服别人。 然后当然另外一个要点是你要用某种方式在第一步画数据那里,告诉大家你的处理变量、结果变量到底是什么分布,它是随时间变化或者是怎么变化的,这个如果能够用图画出来,会比较好。
(回答人:徐轶青,整理人:郭盼亭)

Q:老师能分享一下数据描述那四幅图的 code 么?不太会画图,想学一下~

A: Stata 绘图详细可参考

Q:Unique 命令不能用?

A: Stata 中的 unique 命令能够帮助研究者找出一个变量或一组变量的所有不同值(unique value),可以正常使用。关于如何统计组内非重复值个数以及生成相应变量可以参考如下连享会推文:

Q:请老师再解释一下 TWFE 的模型设定那里,D 是连续变量,如何画的图。

A: 先用 Y 对时间 t 回归,得到残差序列 1,然后用 D 对时间 t 回归,得到残差序列 2,最后以残差序列 1 为 Y 轴,以残差序列 2 为 X 轴画图
(回答人:郭盼亭)

Q:确实如老师答疑时所说,将解释变量滞后一期反而结果更容易显著,但是当期却并不显著,如果审稿人让用当期的再做一次,怎么办呢?

A: 如果审稿人让用当期的再做一次,可以先根据审稿人的要求在回复审稿意见中做出来结果,然后根据当期结果跟审稿人解释当期不显著的原因以及滞后一期就会显著的原因。
(回答人:冀承)

Q:动态效应检验,可以不用全画么?全画出来不满足检验,但如果只画前后两的,就能通过检验。或者如果遇到政策实行前后都不显著,可不可以只画政策实行前的不显著图,然后说政策实行前没有显著差异。

A: 这个是不行的,需要给出完整时间,处理前后的时间都要给出。如果平行趋势假设不满足,这个时候需要去思考不满足的原因。
(回答人:屠西伟) 平行趋势检验的目的在于验证 DID 模型能够赋予回归系数因果含义的关键假设,因此在动态效应图中作者应当对所示用样本区间内各期动态效应予以展示来佐证文章结果的可信性与可靠性,展示挑选过后的结果或者仅展示部分结果都会使文章结果的信度造成一定程度的损失。
扩展阅读:

(回答人:张铭鑫)

Q:动态处理效应第一项希望可以有个简单的数据的例子

A: 可以参考连享会平行趋势检验的相关推文: 一行代码绘制平行趋势图-eventdd
(回答人:陈希)

Q:(1)离散(但非二元)的处理变量,被理解成同一政策但处理强度不同,还是被理解成多个处理变量(对应于多项政策)?(2)如果将其拆分成多个二元变量,怎么解释含义?是将其中某个二元处理作为基准进行解释吗?

A: 如果处理时间相同,但是处理强度不同,比如用离散型数据表示处理的强度,建议将其拆分为多个二元变量,然后都跟 基准组去比较,可以参考文章《Two-Way Fixed Effects Estimators with Heterogeneous Treatment Effects - American Economic Association》
(回答人:陈云菲)

Q:省份的时间趋势是什么,怎么加

A: STATA 中可以直接利用 reghdfe 的命令,在 absorb 选项中,加入(i.province#c.year)。可参考如下推文:

(回答人:屠西伟,张铭鑫)

Q:foreach var in varlist 和 foreach var of varlist 区别是什么呢

A: 没有本质区别,可以理解为 foreach 命令的两种语法,具体可见 foreach 的帮助文档。
(回答人:张铭鑫)

Q: 请问老师您做 DID 是用 diff 还是 reghdfe 比较多?声明是面板数据 xtset 中的时间用原始的 year 还是处理过的 t (就是 0 和 1)?

A: reghdfe 应用更广,比 xtreg 更好,后续课程会详细讲解。参见推文:

(回答人:徐轶青,整理人:王凯璇)

Q:bootstrap 步骤得到的 _b 是为了应用在哪个步骤呢?

A: _b 是为了得到 coefficients,在下次课程中将详细解释 bootstrap 的原理。 (回答人:徐轶青,整理人:陈云菲)

10 . 相关推文

Note:产生如下推文列表的 Stata 命令为: lianxh DID, m 安装最新版 lianxh 命令: ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh