FAQs答疑-2021寒假-Stata论文班-Day2-江艇

发布时间:2021-02-04 阅读 556

连享会·课程答疑


Stata 论文班-Day2,任课老师:江艇

Update: 2021/2/3

课程主页:https://gitee.com/arlionn/PX
板书和答疑

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course


目录


引言

我们根据授课内容,将问题分为以下四类:

  • 基础知识(比如课上提及的相关计量基础)
  • 论文解读(有关 nunnw_2011 这篇论文的问题 )
  • Stata 实例(有关 do file 的问题)
  • 其他(与授课内容相关性不大的问题)

???? 专题 1:基础知识

Q1. 样本选择偏误、自选择偏误和选择性偏误三者是什么关系?前两者是包含于第三者框架之内?

A: 样本选择偏误指估计样本不是感兴趣的总体的代表性样本。自选择偏误指个体的处理状态不是外生的,是每一个个体自己决定选择进入处理组或者控制组,而不是随机被分配到处理组或者控制组。本次课程讲的选择性偏误主要是指自选择偏误。

样本选择偏误与自选择偏误二者是不同的概念,但是之间存在一定的联系。虽然样本选择偏误往往指抽样问题,但很多时候样本选择偏误是由自选择偏误导致的,所以二者之间存在一定的联系,比如 Heckman 模型中提到的一个样本选择偏误例子,当需要估计一个工资方程时,即使某个体没有工作也应该估计出其假如参加工作的工资水平,但是实际能够使用的样本只涵盖有工作的人,从而造成了样本选择偏误。此时样本造成选择性的本质是每个人都是自选择地来决定其是否参加工作,因此样本选择偏误的来源是人们的自选择行为。

Q2. 如何排除竞争性假设?

假如一个 D 对 Y 影响的分析中,我先在理论上认定了一种因果解释(渠道 A,无法在实证上找到变量或数据来证明),但同时认为可能存在另外的竞争性解释(渠道 B),使得我错误地将 D 对 Y 的因果效应归结于渠道 B。为了排除这个竞争性解释,伸张渠道 A 的解释,我找了个渠道 B 发挥作用的变量 W,通过回归 reg W D,发现 D 不显著,然后认定 D 对 Y 的因果效应不可能是由渠道 B 来解释,只能是渠道 A 来解释。这样的做法与 Nunn&Wantchekon(2011)将渠道 B 直接控制似有不同,但本质上是否是异曲同工?

A: 从计量理论来说,可以 reg W D,如果发现 DW 不相关,那么 reg y D W 时,一般也不会 “吃掉” D 的效果,所以这种方法是可行的,但相对少见。

Q3. 能否通过删除模型中不显著的变量来做稳健性检验?

在斯托克的计量经济学第三版,有删减关键控制变量中不显著的控制变量的做法来看结论的稳健性,如果这些控制变量可以删减,那么为什么要放入关键控制变量中?

A: 一个控制变量是否关键来源于理论,但是如果实证结果发现对于某个特定样本,该关键控制变量不显著,可以再把其去掉,验证结果的稳健性。

Q4. 工具变量法貌似没有反事实的逻辑,那么工具变量法是否能够真正识别出因果关系?

如果按照潜在结果分析框架来审视工具变量法,工具变量法貌似没有反事实的逻辑,那么工具变量法是否能够真正识别出因果关系?是否只能说工具变量法能处理内生性问题,而不应该扩大化为其能识别因果关系?

A: 工具变量法有反事实的逻辑,Imbens & Angrist (1994) 描述了这个潜在因果框架。传统因果框架假设同质因果效应,但如果个体处理效应是异质的,则线性 IV 模型无法识别总体的因果效应,只能识别对处理敏感的人的局部平均处理效应(LATE)。

后来发展起来的 IV 方法可以估计边际处理效应(MTE),具体见 Heckman and Vytlacil 的一系列研究。

Q5. 在研究渠道探讨竞争性解释时,是不是就是在回归中考虑了多个核心解释变量?

在研究渠道探讨竞争性解释时,是不是就是在回归中考虑了多个核心解释变量,那这时内生性问题是不是更大?论文原文中似乎也没讨论内生性问题。

A: 原文中确实没讨论竞争性解释的变量的内生性问题,原文甚至连原核心解释变量的内生性都不再“顾及”了,可以看到表 9 和表 10 并没有采用 IV 估计,而是 OLS 估计。这是因为此时论证的重点已经变成了两个互相竞争的解释之间的“赛马(horse race)”了,可以不必模糊焦点。

Q6. 请问选择哪个回归作为基准回归有没有什么原则或者标准?

A: 基准回归应当尽可能满足一些条件:第一,基准回归中的估计是稳健的,即各种违背基准回归所需假设的问题基本不对回归结果有大的影响,即各种补充性的稳健性检验结果不能推翻基准回归的假设;第二,如果一些假设不能明确地通过稳健性检验判断合适与否,则采用最普遍、最为当前文献所接受的假设,作为基准回归的假设或设定,这是最不容易受到诟病的做法;最后,也是更重要的一点,基准回归应当能够回答论文的主要问题,此后的回归都仅仅是讨论稳健性或考虑异质性。

Q7. IV 估计的偏误问题

92 页识别策略中,β1IV 附加值若是 0.5,假设 β1 的真实值 β10=0.3γ/π1=0.2β1IV 与 γ/π1 同号,β 值高估了因果效应。但 0.5 是小于0.3 的,感觉是低估了。为什么理解此处公式时要加绝对值符号?谢谢!

A: 这里的高低是指效应的意义:当考虑因果效应时,我们会关注 D 对 Y 影响的大小,影响大意味着这个因果关系的揭示是比较有意义的。因此,不考虑正负号的前提下,按照惯例,我们认为,-0.5 相对于-0.3 是一种对因果效应的高估。

Q8. 请问老师,βF 和 βR 的差异越大,虽然 selection ratio 会大,是不是与系数稳定性相矛盾呢?

A: 说反了,βF 和 βR 的差异越小,selection ratio 越大。

Q9. 请问江老师,能简要说一下 ivreg2 检验工具变量外生性的原理吗??

A: > stata 输入 lianxh 过度识别

Q10. 请问调节效应分析是不是研究关键控制变量的调节效应比较有意义?

A: 个人觉得一个研究的都是要围绕关键的核心解释变量与被解释变量之间的关系进行展开,故如果想要进行调节效应分析,不应该基于控制变量,而是基于研究本身最关心的核心解释变量。

Q11. 请问为什么 Applicant group fixed effect 可以把比较控制在组别内,为什么不是进行组间比较呢?或者二者的差别是?

A: 因为控制固定效应本身的目的就在于进行组内比较,而不是组间比较,建议看江老师关于固定效应讲解的回放进一步了解该问题。

Q12. 请问上午 page71 中提到 Altonji et al 2005 相当于假定 R 平方 max=1,这是怎么得到的呢?

A: 这个确实没有太好的直观理解,详细的证明要看 Oster (2017)原文。

Q13. 能请简单讲解一下排斥性约束吗?

A: 排斥性约束是指的工具变量 Z 只能通过内生变量 X 去影响 Y,如果 Z 可以直接影响 Y(排斥性约束不满足),那么二阶段的 X 回归系数估计有偏。

其中,红色部分 γ/π1 表示偏误 (bias)。

Q14. 工具变量法中,Z 对 X 影响,有没有一种情况是 X 对 Z 和 Y 影响,而 Z 对 X 没影响,同时而 Z 和 Y 之间没有关系,在这种情况下,我们能不用用 Z 代表 X 去回归?

A: 不可以。(你说的 X 就是我说的内生解释变量 D。)你的意思相当于是说 Z 和 D 之间的相关性是由从 D 到 Z 的因果性所导致的,而不是由从 Z 到 D 的相关性所导致的。

此时的 Z 不是一个好的 IV 的原因在于,既然 ε 会影响 D,而 D 又会影响 Z,岂不是说明 ε 会影响 Z?那就违背外生性(独立性)假设啦!

这是一个好问题。它告诉我们,尽管我们常谈论 IV 的相关性,但这种相关性中其实蕴含着强烈的因果含义,倒过来是不行的。

Q15. 饱和模型等价于匹配方法是什么意思?此处的匹配方法指什么?现在讲的这一讲不都是匹配吗?

A: 这里讲的匹配方法特指执行匹配思想的两种条件策略——非参数匹配和含控制变量线性回归——中的前者。

例如,当 D=0,1X=1,2,3 时,如果采用非参数匹配方法,相当于分别计算

然后

“非参数”的含义就是对 E(Y|D=d,X) 的函数形式没有限制。

如果采用饱和模型,定义 Wix=1(Xi=x),x=1,2,3

此时有

有六个自由参数,正好分别由六个条件均值去估计,也就意味着对于

的函数形式也没有限制。所以,饱和模型虽然看起来是一种含控制变量的线性回归,是一种参数方法,但实际上其“线性”性质并不是一个实质性假设,条件期望函数取值的可能情形和自由参数的个数正好相等,这就是“饱和”的含义,饱和模型和非参数匹配方法的估计结果是完全等价的。

但如果采用非饱和模型,比如

此时有

此时条件期望函数取值的可能情形仍然是 6 种,但自由参数只有 4 个,也就意味着这个模型对

的函数形式施加了实质性假设,即

这种参数方法和非参数的匹配方法估计结果就不等价了。

第一天有同学问到,同时控制两个维度的固定效应是不是就相当于在两个维度上切割总体(样本),我的回答是否定的。现在大家就能看得更清楚了,非参数匹配方法相当于在两个维度上切割。而如果只控制两个维度的固定效应,还只是一个非饱和模型,所以它和非参数匹配方法不等价;但如果控制了两个维度的固定效应及其交互项,就是一个饱和模型了,它和非参数匹配方法等价,这时才能把它理解为相当于在两个维度上切割。

话说回来,笼统地把控制多个维度的固定效应理解为在多个维度上切割,问题也不大,只要我们心里清楚,它是伴随着额外假设的。

Q16. 第二讲中的匹配,第二类识别给定了 X 其实也就是类似第一讲中的固定效应进行分组是吗?

A: 不是,第一讲的固定效应指的是参数方法,隐含同质处理假定,将 Y 回归在 D 与一系列虚拟变量上;而第二讲的匹配是非参数方法,组间均值比较,不需要假定 Y|X 的条件均值在处理组和控制组之间具有某种函数形式假定,是非参数方法。参见 Q15。

Q17. 请问刚才所讲的 CATT 和平时看到的局部处理效应的 LATE 比,C 和 L 是一个意思吗?

A: 不同,局部处理效应 LATE 是指工具变量法,CATE 是指条件平均处理效应,是今天所讲的内容。简略地说,CATE 的条件集是可观测的,LATE 的条件集是不可观测的。

???? 专题 2:论文解读

Q1. 证伪检验中的固体效应控制问题

为什么用尼日尼亚数据做证伪检验的时候,没有报告没有控制个体变量的回归结果?在作用渠道中的第一个检验,可以解释为因为奴隶贸易使得当地政府质量下降,从而使得现在的人缺乏信任,即政府的质量是一个中介?如果不能做中介解释,那么是不是政府质量既影响 D 又影响 Y 需要被控制,如果需要被控制,在基准回归中,作者为什么没有控制?

A: 因为只有尼日利亚一个国家,因此没有所谓的个体固定效应。此时如果不控制个体变量,那就变成一个一元回归了,作者可能认为没有报告的价值。

作者实证检验得到的主要结论是,奴隶贸易影响人们的信任观念,让人们更加不信任政府。 但文章使用的被解释变量还暗含了另外一些机制,比如,奴隶贸易可能使得制度变差,因此实施差制度的政府不被人们信任,如果这一说法成立,则在主回归中控制人们对政府治理水平(质量)的评价,则感兴趣的系数会变得很小。但事实上,做了这样的控制之后,根据作者的说法,还有相当于基准回归 50%左右的感兴趣的系数大小存在,因此这个效应无法用这一机制完全解释。总之,这不是一个中介的问题,并且只是对机制的探索,不影响基准回归的主要结论。

Q2. 讲义第 96 页的 table9 里的括号里的值是 t 值么?为什么 within town 下的(0.029)对应的-0.037 没有星号。但是,within province 下的(0.029)对应的-0.098 会加 3 个星号?

A: 是标准误。

Q3. 文章中的影响渠道检验里面,在控制竞争性解释变量后,核心解释变量变化不大,这就可以说明不是通过这些渠道影响的吗?还有,一般影响系数变化多大程度才算是明显变化呢?麻烦老师帮忙解答

A: 不是说这些竞争性的渠道没有在起作用,而是说这些竞争性的渠道没有削弱文章重点探讨的理论机制的作用。也就是说后者确有其事,而不只是前者的反映。这个没有一定之规,要具体问题具体分析。比如,如果加入竞争性解释以后,核心解释变量的系数减小了 70-80%,就要令人担忧了。

Q4. 课件 49 页的请问 table4 里,有了 age 以后,为什么还需要一个 age squared 呢?这两个不是同一组数据么?

A: 年龄的影响可能存在一个转折点,为了控制年龄的非线性影响。这是从 Mincer 的教育回报率的研究以来的一个通行做法,因为在这篇文章中,年龄是作为收入的代理变量出现的,而年龄和收入之间的关系一般被认为是倒 U 型的。

???? 专题 3:Stata 实例

Q1. 面板回归中加入的 time trend 原理是什么呢?在 STATA 中如何实现?

A: 见 lianxh 时间趋势。

Q2. 请问老师 iv-oprobit 的命令是用 cmp 来做的吗?它的边际效应的命令应该怎么做呢?

A: 可以用 cmp 做,不过我没有实际做过,所以我只能猜测 margins 应该能得到它的边际效应。

事实上,你是见不到使用 iv oprobit 这种奇怪命令的正经文章的,原因我在课上讲过了。

???? 专题 4:其他

Q1. 研究地区空气污染时,解释变量是工业生产,被解释变量是 PM2.5,相邻地区的空气污染会影响本地,但是不会影响本地的工业生产,那么相邻地区的 PM2.5 这个变量需要控制吗?如果本地上一期 PM2.5 会对当期 PM2.5 产生影响,但是不对工业生产产生影响,是不是也不用考虑动态模型?

A: 如果确信相邻地区的空气污染不会影响本地的工业生产,那么相邻地区的 PM2.5 就不一定需要控制,但是如果其与本地区空气污染高度相关,能够解释本地空气污染的很大一部分,那么把该变量进行控制可能提高模型的拟合程度以及核心变量的统计显著性。但需要注意的是,相邻地区的空气污染不一定不会影响本地的工业生产,比如有可能取决于相邻地区的污染协调机制。

是否需要控制本地上一期 PM2.5 方面,一是如果 D 的内生性问题不需要通过动态面板处理,可以不控制 yit1。二是如果明确知道 yit1 与 Dit 不相关,可以不控制 yit1。但很多时候控制因变量的滞后项,真正合理的解释应该是,通过这种控制来消除遗漏变量偏误,因为遗漏变量就是同时影响 D 和 y 的不可观测变量,那么控制 y 的滞后项,一定程度上控制了这些遗漏变量。

Q2. 请问老师,在讲 IV 时是否出生在第一季度的例子,这个出生日期为 1 月 1 日能否作为断点 RDD 呢?

可以。可以把这个例子理解为就是一个模糊 RD。别忘了,模糊 RD 的估计方法恰恰就是工具变量方法。

Q3. 做环境经济学,因为缺少企业层面的排污数据,一般都是用企业所在行业的污染属性来判断企业是高污染还是低污染。但审稿人指出,这样分组会导致高污染企业中可能存在污染排放少的企业,而低污染企业中也可能存在污染排放高的企业。请问,有没有什么方法可以缓解这样的分组问题?或者老师可否推荐几篇解决类似问题的文献?

A: 个人并非做环境经济学这一领域,所以只能按自己的理解解答。 首先建议看看相关文献,关于污染的国内外文献非常多,看看别人用的什么方法去识别,是否都有排污数据呢?如果没有是如何做的? 其次,关于推荐类似问题的文献,建议知网搜索一下关键词为“环境”或者“污染”的文献,在 top期刊里面肯定很多类似文献,看看中文文献是怎么处理这个问题的。当然也可以看国外文献,但是你的数据是中国数据,目前问题也是数据的问题,所以建议看看国内其他学者是如何处理这种问题的。 最后,这个问题问得不够清晰。污染是因变量还是自变量?如果是自变量,那么高污染行业里面可能有低污染企业,而低污染行业可能有高污染企业,这样应该是低估了污染的影响?仅供参考。

Q4. 请问研究可再生能源集聚的碳减排效应(省际面板数据),为了保证估计结果的稳健性,除了控制变量法,还可以考虑哪些固定效应,如果对样本进行分组,应该考虑哪些关键变量呢?

A: 个人觉得如果是面板数据,除了时间固定效应之外,一般情况下至少还要控制观测值所在层面的固定效应,即如果是企业层面数据,需控制企业固定效应;如果是省份层面数据,则需要控制省份固定效应。此外,基于研究目的,还可以考虑双向固定效应。

Q5. 请问老师 stata 结果中的标准误为点或者 omitted 时,模型是否可进行讨论?

A: 这个没法给一般性的诊断意见,要具体情况具体分析。比如在用 ivreg2 估计双向聚类稳健标准误时,如果回归方程中固定效应太多,标准误就有可能算不出来,这时可以用 partial 命令解决这个问题。

Q6. 问一个昨天相关的问题,目前在做创新相关的文章。因变量是公司层面专利申请数据。解释变量有公司层面的数据,也有行业层面,省级层面。老师推荐用 poisson 跑回归,还是 ols 跑呢?

A: 这是在考察公司创新能力的影响指标,如果解释变量是呈现长尾分布,即包含较多零值,则推荐用 poisson;如果解释变量都只是正常成正太分布,则 ols 就能满足。如果有公司层面的面板数据,建议基准结果可以使用 OLS 进行回归,稳健性检验考虑使用 poisson 回归,可参考一篇以企业专利申请为被解释变量的文章 Intermediate input imports and innovations: Evidence from Chinese firms’ patent filings,Journal of International Economics。

Q7. 理论模型分析和实证检验分析如何结合?实证分析什么时候需要加入理论模型的构建?理论模型分析什么时候需要引入实证分析?

A: 理论和实证的结合是今后的大趋势,但一篇文章还是会有侧重。比如一篇重理论的文章,会把实证部分放在先,为理论模型提供 motivation (motivating evidence),此时可能不会特别严格地、大篇幅地去处理内生性问题;一篇重实证的文章,会把理论部分放在先,为计量方程的设定和系数的解释提供一定的指引,但这种模型一般是 highly stylized,甚至是 toy model。还有一种结构估计的实证文章,因为其实证部分就是在估计理论模型本身,此时从理论建模到实证分析都是很 serious 的。

Q8. 好多教科书直接把扰动项叫残差。二者还是有所差异的,您对此怎么看呢?

A: 不要只看术语本身,要看术语的具体所指。我最常见到的叫法,当我们谈回归模型的时候,会把总体回归模型的 ε 叫做扰动项,而把样本的 e 叫做残差。当我们谈因果模型和回归模型的区别的时候,会把因果模型的 ε 叫做(结构)扰动项,而把回归模型的 ε 叫做期望残差(expectational residual)。

整理:吕卓阳 全禹澄 徐阳 袁煜玲

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看

专题 嘉宾 直播/回看视频
最新专题 因果推断, 空间计量,寒暑假班等
数据清洗系列 游万海 直播, 88 元,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh