FAQs答疑-2021寒假-Stata论文班-Day1-江艇

发布时间:2021-02-04 阅读 3056

连享会·课程答疑


Stata 论文班-Day1,任课老师:江艇

Update: 2021/2/3 8:30

???? 课程主页:https://gitee.com/arlionn/PX
???? 板书和答疑

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course


目录


引言

我们根据授课内容,将问题分为以下四类:

  • 基础知识(比如课上提及的相关计量基础)
  • 论文解读(有关 nunnw_2011 这篇论文的问题 )
  • Stata 实例(有关 do file 的问题)
  • 其他(与授课内容相关性不大的问题)

???? 专题1:基础知识

Q1. 因果模型和线性回归模型的区别是什么?

A: 个人理解:外生性指的是 D 和真实扰动项无关,是因果模型的假设(类似先验信念)。老师后来说“回归模型里的外生性是结论”,E(DiϵiR)=0 是通过求 minE(Yiβ0Rβ1RDi)2 的 FOC(一阶导)得到。 这里的 ϵR 其实是残差(Y 与其拟合值之间的差),而不是真实扰动项。

看 20210202 视频中因果模型与回归模型区别部分内容。OLS 估计永远是回归系数的一致估计量,如果只是想研究相关关系,OLS 估计量是相关性好的度量,但因果效应讲的是因果性,是线性因果模型(老师也称其为结构模型)的参数,区别于回归参数,结构参数的识别需要有关键识别假设。

Q2. 江老师,严格外生性或正交不应该是推导无偏的假设?为何说它不是假设,而是推导出来的?

A: 回看 20210202 视频中因果模型与回归模型区别部分内容。同样一个模型 Yi=β0+β1Di+ϵi,E(ϵ)=0 ,我们有两种理解,一种是因果模型,一种是回归模型。作为回归模型,外生性不是假设,是结论;作为因果模型,外生性是一个假设。

Q3. 上课时谈到 X 可以和扰动项相关,那 X 就是一个不一致的估计,又因为 X 和 D 相关,那么会导致 D 的估计不一致,那么因果估计效应和一致估计量是怎样的关系?

A: 如果 X 和 D 相关,且 X 留在了扰动项里面,此时 D 的估计不一致。当我们将 X 从扰动项中剥离出来后,目标是希望 X 与扰动项中剩余部分不相关,此时 D 系数是一致估计量,而剥离出来的 X 与残余在扰动项中部分可能存在相关性,因此 X 系数的估计是不一致的,我们主要是想保证 D 系数的一致性,因此无需过多关注 X 系数估计值。

因果估计效应与一致估计量的关系:回看 20210202 视频中因果模型与回归模型区别部分内容。OLS 估计永远是回归系数的一致估计量,如果只是想研究相关关系,OLS 估计量是相关性好的度量,但因果效应讲的是因果性,是结构参数,区别于回归参数,结构参数的识别需要有关键识别假设。

Q4. 遗漏重要解释偏误带来的内生性影响核心解释变量估计系数的一致性,那对估计的有效性影响是什么样的?(统计显著性)?

A: 一致性:Consistency;有效性:Efficiency;统计显著性:Significance。 有效性和统计显著性在概念上有差异。有效性若使用 MSE 标准,是在衡量估计量的优劣程度,若都是无偏估计量的情况下,方差更小则是更有效的估计量。统计显著性是针对假设检验而言的,即可以根据对总体参数的样本估计做出对总体参数的统计推断。

遗漏变量藏在扰动项里面,会降低回归的整体拟合程度,系数估计的标准误自然就更大,统计显著性下降。

Q5. 老师讲到估计系数是偏效应,比如 β1 是 D 对 Y 的偏效应,β2 是 X 对 Y 的偏效应,那么 D 和 X 对 Y 共同效应在哪里?是在某一个系数中吗?

A: 假设 y=β0+β1x1+β2x2+ϵ,则 β1 是 D 对 Y 的偏效应,β2 是 X 对 Y 的偏效应。此时有 var(y)=var(β0+β1x1+β2x2+ϵ)=β12var(x1)+β22var(x2)+β1β2Cov(x1,x2)+var(ϵ),共同效应体现在 β12var(x1)+β22var(x2)+β1β2Cov(x1,x2)。 相关推文可参考 R2分解:相对重要性分析 (Dominance Analysis)

Q6. 老师提到不要过度解释控制变量,那对于与预期不符合的系数,能否可以不解释?

A: 可以不解释,关键在于解读核心解释变量。

Q7. 请问讲义第 25 页第一段谈到控制变量的双重作用,其一是使模型拟合更准确,其二是切断影响 Y 的其他因素(隐藏在扰动项中)与 D 的相关性,使得扰动项与 D 无关,为什么说第二个作用比第一个作用更重要呢?

A: 因为第二个作用是为了因果识别,将扰动项中与 D 相关的因素剥离出来,使得剩下的扰动项和 D 不相关,这样能保证因果识别假设成立。只有在识别假设成立的前提下,估计出的 D 的系数才能够反映核心解释变量与被解释变量的因果关系。

Q8. 课上讲的主要的解释变量需要有一定的变动范围,能否麻烦老师对此进行更详细的介绍,是否有相关文献推荐?就比如您举例的学历这件事,如果研究高管学历基本都是本科,研究生等,应该怎么考量该变量呢,谢谢老师。

A: 首先要区分是核心解释变量还是控制变量的变动范围。这两个变量都需要 variation,在课堂上讲的是核心变量的 variation,当我们控制了固定效应以后,对核心解释变量的 variation 就提出了更高的要求。因为在固定效应中,使用的是组内的 variation。

比如:(研究教育回报率时)数据中只有本科生和研究生,这是否算variation 足够呢?还有比如很多同学经常关心的样本是否够大的问题,比如计量教科书和老师们常提到的样本越大越好,但是样本到底多大算大呢?经济学并非一门 hard science,而这些其实都可以归类为"False question"。

这些问题的答案是取决于讲的故事是否漂亮。当故事很漂亮时,观测值很小,哪怕只有 10 几 20 个,也可以做出很好的研究。比如最近Zhiguo He 老师发在 Journal of Finance 上的其中一个回归只有 7个observations。所以研究是否出色,取决于故事,不在于样本量。

回到教育回报率中只有研究生和本科生的样本的问题。在统计上,足够的 variation 更可能估计出显著的结果,但更重要的是对这里的系数的解释是什么。实际上在此,教育回报率只能解释为相比于本科教育,再去读研究生的影响。这样的估计结果的外推能力较弱,比如它不能够对初中生是否上高中这种人力资本投资给出一定参考的价值。

所以,在这类问题中,并没有一个一般性的评价法则去规定到底多少variation 才算大,关键还是在于是否能够讲出漂亮的故事,以及对估计结果的合理解读。

Q9. 今天讲的固定效应主要是为了解决选择性的相关问题。我理解的是,用一些可观测或者不可观测变量近似随机分组进行回归,以满足独立性的假设。如果前面控制变量的时候控制了性别这个变量,那么后面还需要在控制固定效应时选择性别这个变量吗?

A: 不需要控制两次。固定效应是一种特殊的控制变量,是以虚拟变量方式出现的控制变量。

Q10. 将控制变量纳入回归模型与控制固定效应的区别是什么呢?

A: 固定效应是一种特殊的控制变量,是以虚拟变量方式出现的控制变量。

Q11. 请问控制变量和固定效应到底是什么关系呢?有时说控制此变量,有时说此变量的控制效应。并且他们在模型中的形式有区别么?

A: 当变量为二元,0-1时,“控制变量=固定效应”。若不为二元,概念不等价。

模型如下:

Y=α+βX1+γX2+ε

若 X2 为 dummy(例如男性女性),其数据结构为(男,女,男,男,男,女,男),则 X2=(1,0,1,1,1,0,1),估计出的 OLS 系数为 γ^。变为控制性别固定效应(固定效应模型同 least square dummy variables 模型在数学上等级,即 stata 中的 i.),生成的两个虚拟变量为 X_2_male=(1,0,1,1,1,0,1) 和X_2_female=(0,1,0,0,0,1,0)。那么可以看到这两个虚拟变量因为共线性(加起来和截距项共线)并不能够同时加入回归。如果省略掉X_2_male,那么 LSDV 中 X_2female 估计系数为 γ^。若省略 X_2_female,则为 γ^。因此等价。

当变量不为二元时,比如教育水平=高中/本科/研究生。若 code 为 0,1,2 并加入控制变量,隐含的假设是每提升一级,其对 Y 的作用是相同的,因为模型为线性。若变成固定效应,则相当于认为每种教育水平的个体有不同的截距,从高中到本科和本科到研究生,模型的Y的截距上升是不同的。当然,正如江老师所说,此时只有组内 variation 有效。

参考陈强《高级计量经济学与stata应用》中固定效应章节。

Q12. 请问江老师如何看待个体固定效应的,个体固定效应是不是对数据最严格的要求了,如果样本量不是那么大的话使用个体固定效应会不会影响估计呢?

A: 使用截面数据时,无法控制个体效应,因为控制个体效应,则相当于令每个个体一个类别,每个类别内部只有一个个体,没有变动性,故无法估计。在面板数据等时,在另外的维度扩充数据,从而使得在同一个个体内部出现变动性,此时才可以使用固定效应。

Q13. 江老师您好,您在课堂中提到,在控制 X 之后,相当于是在估计时对数据分组了,所以每组中的变动性很重要。假如组内变动性不足,是否会导致估计上的偏差?另外,当我们控制很多 X 时,相当于在多维度上分组切割数据,如果数据总量小,每组内的数据量不够,这种情况对我们的估计有什么影响吗?

A: 第一个问题:组内的变动性不足,则该组在估计时不会被用上。例如研究教育回报率时,考虑性别因素,若教育水平在男性中有充足的变动,但在女性组内无充足变动性,则以为估计所得的系数基本是由男性组数据估计值决定的,而女性组样本数据对最后的估计结果无贡献。 第二个问题:会在 20210203 匹配部分提及。线性控制很多 X,与多维度上分割数据不等同,例如控制变量为 X1X2,我们一般只需要控制 X1X2,此时控制变量是线性增长的,而多维度分割数据等同于控制 X1X2X1*X2,后者控制变量会以指数型增长,两者存在差异。 板书.png

Q14. 讲义的 45 页中下面公式中分母为什么没考虑也是一个区间的概念?即分母的大小也会有高估和低估的问题。

A: 左区间为将 D 和 X 可以解释的部分中,共同解释的归因于 X。右区间为共同解释的部分归因为 D。故真实 D 可解释部分居于二者之间。分母是 D 和 X 的解释效应总和,包括 D 可解释的,X 可解释的,以及 D 和 X可解释的。 此问题对公式理解有误。

补充:这个问题问的是讲义 45 页的第二个公式。这个公式是在(控制 X2 前提下)比较 D 和 X1 的相对解释力。分母确实也有低估高估的问题,但这个问题涉及的是 X2 的解释力的评估,跟我们要讨论的问题没有关系(用大白话说,反正分母都是同一个)。

Q15. 遗漏重要解释偏误带来的高估和低估,意思是如果是原正+低估,不影响,如果是原正+高估,可能会导致真实的系数是负,此时才会有害。是这个意思吗?

A: 是。

Q16. 讲义 38 页,说核心解释变量的数据层级高于被解释变量时,标准误应聚类到核心解释变量所在的层级。请问老师如果是被解释变量层级更高的情况有要求吗?

A: 聚类标准误是更多是从故事角度出发去对数据生成过程做出的假设。(截面数据)如被解释变量为企业,解释变量为行业,此时聚类到行业,是因为上同一个行业的企业中,其扰动项很可能是相关的:同一个行业使用同种类型的劳动力、技术,受到同一法律法规限制等。不论被解释变量的层级如何,考虑扰动项聚类结构假设时应从经济学原理角度出发,更为合理。

补充:你一般见不到被解释变量数据层级高过解释变量的情形。试想:用企业变量去解释城市变量,这不合理嘛!

Q17. 文献里面很多文章用企业层面数据做研究,但是控制了企业固定效应,这个从原理上是不是不合理呢?再比如,如果核心解释变量是行业层面数据,被解释变量是企业层面数据,这个是控制企业还是行业层面固定效应呢?还是这个最好都控制呢??

A:截面数据研究中,这样的固定效应是不合理的。但如果是面板数据,也就是同一个企业有不同时间的数据,此时企业固定效应的控制没有问题。具体控制行业层面数据还是企业层面数据要看数据的结果以及研究问题的情景,根据实际经济意义出发。

Q18. 请问老师,使用交互固定效应(如i.地区#c.年份),是否依赖于大样本?这种控制是否是实证研究中的基本操作?

A: 否。 无论样本多小,只要组间有足够的variation,都可以采用固定效应。这种控制是实证研究中的基本操作。

Q19. “XXX 的影响因素研究”不会是一项好的因果推断研究。问题:在研究中国可再生能源发展的影响因素时,不同地区、不同的能源品种的关键影响因素可能不同,一般来说有政策因素、经济因素、环境因素。如何验证多个影响因素对可再生能源发展的因果关系呢?有无更好的方法?

A: 正如江艇老师所说的,现如今经济科学研究,往往一篇文章因果推断只能解决某一个影响因素的讨论。如果同一篇文章需要讨论多个影响因素,更现实的情况是考虑将其视作相关性而不是因果性研究。在因果推断实证(经济学)领域来看,以上是目前主流思路。

???? 专题2:论文解读

Q20. 上课讲的论文基础回归不控制种族和区域层面固定效应,而控制国家层面的固定效应的原因?

A: 不控制种族固定效应的原因:核心解释变量是种族层面的,若控制种族固定效应,则每个种族内部核心解释变量无变动性,导致因果关系无法识别。

不控制区域层面固定效应的原因:通过数据检查,绝大多数样本中区域内只含一个种族,若控制区域层面固定效应,会导致只含一个种族区域的样本数据缺失,使估计结果产生偏误。

Q21. 上课讲的论文为什么总是说说要去除国家固定效应?国家效应不是要一直控制吗?

A: 上课的论文是一直控制国家固定效应的,去除国家固定效应是在探讨核心被解释变量对被解释变量的解释力度时,只比较了核心被解释变量和控制变量的解释力度,一般而言,固定效应的解释力度很大,与固定效应比较没有太大意义。

Q22. 关于解释回归的经济学含义方面,变动标准差的分析方法不论 X 是比例变量、虚拟变量、类别变量都可以参照这个方法解吗?

A: 理论上是可以的。

Q23. 课件47页,提到了殖民统治可能是遗漏变量。这里为什么不用历史上的事实,就是是否真实被统治过?为什么文章要去考虑什么影响殖民统治?

A: Colonial RULE 才是需要考虑的遗漏变量,指的是殖民统治带来的许许多多的例如政治制度调整、经济改变等,并非“是否被殖民过”本身。

殖民统治对非洲大陆政治经济文化等层面的影响是极其重大而深远的,所以其很可能影响了居民的信任水平。考虑某种情况,即奴隶贸易很猖獗的地方,其更可能后来受到严重的剥削性殖民统治,那么很可能殖民统治才是造成信任下降的原因,而并非奴隶贸易本身。这便是担忧的所谓遗漏变量偏误,需要加入控制变量。

Q24. Fisman and Wei 文章里,如果企业逃税能力越强,政府担心税收减少,为了满足足够的税收收入,完全可以提高税率来增加已有的税收,这如何理解?

A: 按照作者自己的理论,税率越高,逃税越猖獗,所以提高税率没有办法增加税收收入。当然如果对这个问题想要有更完整的认识,建议去看原文。

???? 专题3:Stata 实例

Q25. ① 请问 Two way cluster命令是:cluster(City province),那城市×省份的命令该怎么写呢?是 cluster(city) cluster(province) 吗?② 双向聚类为 cluster(A B),那 cluster(A B C)是属于多重聚类?三重聚类?

A: ① 因为 city 是 nested in province 的,一个城市不可能属于两个省份。所以在聚类标准误时 city×province = city,不需要用 city×province,但是可以出现 city×industry 的交叉项的聚类层级(因为它们俩不是彼此包含的关系)。在 reghdfe 命令中,使用选项 cluster(city#industry) 即可实现。 ② 是。

Q26. do 文件中 xi:logistic y x1 x2 是什么意思呢?

A: logistic y x1 x2 表示 y 对 XX2 做 logic 回归。xi:主要用于 X 或 X2 中含虚拟变量的情形,若虚拟变量非字符串,则在 Stata12 及之后的版本中无需加 xi:;若虚拟变量含字符串,则需加 xi:

Q27. 请问 ivregivreg2sls 功能不一样吗,面板中的ivreg2sls 后面加工具变量,上课讲的 ivreg 好像和工具变量没有关系?

A: ivregivreg2sls 具体的差异见 help ivreghelp ivreg2sls。两个命令都可以用来做工具变量回归,同时也可以做普通 OLS 回归。

Q28. 请问老师,控制 X2,把 D 和其他解释变量进行比较的结果,在 Stata 里面怎么实现,是把每个 R2 算出来,最后根据公式自己手动算吗?

A: 具体看代码文件,是根据公式手动计算。

********************************************************
*** Variance Decomposition - for discussion in paper ***
********************************************************
preserve

for @ in any trust_neighbors ln_export_area murdock_name age age2 male urban_dum education occupation religion living_conditions district_ethnic_frac frac_ethnicity_in_district isocode: drop if missing(@)==1

/* None */
xi: reg trust_neighbors i.isocode
scalar r2_1=e(r2)
/* Slave Trade Only */
xi: reg trust_neighbors ln_export_area i.isocode
scalar r2_2=e(r2)
/* Other Characteristics */
xi: reg trust_neighbors $baseline_controls
scalar r2_3=e(r2)
/* Both */
xi: reg trust_neighbors ln_export_area $baseline_controls
scalar r2_4=e(r2)

di "[", (r2_4-r2_3)/(r2_4-r2_1), ",", (r2_2-r2_1)/(r2_4-r2_1),"]"
restore

Q29. 讲义 45 页(D 能解释多少 Y 的变动性)如何使用 stata 操作?

A: 同 Q27。

Q30. x_ols2 出现报错 comman x_ols2 is not recognized

A: 为了运行 x_ols2 命令,请将 x_ols2 (群里有) 下载好后,放在 PX_C_2021a\adofiles\x 文件夹里。

???? 专题4:其他

Q31. 请提供一下讲义中 3-5 页中示例 1(教育回报率)、示例 2(班级规模与教育产出)、示例 3(金融发展与经济增长)的论文原文吗?

A: 这三幅图都不是从论文原文中来的,但是这三个话题都有大量的文献,1 较经典的文献有 Angrist and Keueger (1991);2 最著名的研究是 Angrist and Lavy (1999, QJE),以及大量关键词为 Project STAR 的论文;3 包括 Rajan and Zingales (1998, AER) 以及 Beck and Levine 等人的大量研究。

Q32. 请问门槛模型中有多个自变量是门槛变量该怎么处理?

A: 分多次回归,一个一个地测试。

Q33. 面板数据分析时,是否需要对所有研究变量进行内生性检验?如果检验发现控制变量具有内生性,该如何处理呢?

A: 无论数据是什么结构,面板数据或者截面数据,我们只需要关注核心解释变量的内生性问题。控制变量的内生性只会影响控制变量前系数估计是否一致,不是我们研究的重点,因此无需考虑。

Q34. 时间序列数据的 Newey-west 标准误是什么意思?它是不是考虑某个时间间隔之类的聚类稳健标准误?另外聚类稳健标准误中的扰动项相关是如何计算出来的?

A: newey-west 方法考虑到了高阶自相关,它利用非参数 HAC法对标准误进行调整,估计得到标准误的一致估计量,而不影响 OLS 估计值。聚类稳健标准误的推导涉及大量计量知识,建议翻看相关计量课本。

Q35. 做 OLS 回归,reg y x 的结果是显著的;然而加入robust 之后,reg y xrobust 的结果就不显著了。请问这是什么原因呢?应该怎样解决才能尽可能得到稳健又显著的结果呢?

A: robust 选项表明标准误经过 White 异方差修正,从而使结果更稳健。是否加 robust 选项最好从经济意义上去选择和说明。一般文献中,都加 robust,得到的结果才能使人信服。

Q36. 目前我和导师在进行基于社会生态学理论的课题研究,探究社会经济环境、自然环境、社会人口、学校体育相关政策等对学生身体素质的影响,解释变量有人均可支配收入、城镇化水平,海拔,维度,年龄,性别,学校体育干预政策等。您课程中提到一项因果推断研究待探究的原因往往只有一个,因此只能也只需处理某个特定变量的内生性问题。那么对于在大框架下探究多个因素对学生体质下降影响时,我们同时关心核心解释变量和一些控制变量,如何对存在内生性问题的解释变量的结果做出合理解释?由于我们缺乏影响学生体质的学校体育层面的数据,模型存在内生性问题,比如 关于学校体育的相关政策 是个内生变量,但很难找到工具变量。在这种情况下,我如何在满足课题要求和构建可靠模型中进行权衡?

A: 没有标准的答案,具体问题具体分析。首先,可以参考该领域的文章规范,看其对因果推断有多高要求。当想论证多个同等重要的解释变量时,可以同时处理多个变量的内生性问题,若不能很好地解决内生性问题,在进行解读时要注重 tone,即要度量话说几分满。

Q37. 请问老师提到的将离散模型用 lpm 模型讨论的文献是哪一篇呢?

A: Angrist, J. D. (2001). "Estimation of Limited Dependent Variable Models With Dummy Endogenous Regressors." Journal of Business & Economic Statistics 19(1): 2-28.

Q38. 请问如果我们研究信任程度对是否进行某项贸易时,不可以用 logit 而是要用 reg 吗?如果我们收集到的原始数据存在明显的错误项或缺失项,我们应该怎么处理比较好呢?

A: 可以用 logit,只是 reg 在论文中更常用。含固定效应的离散选择模型目前还不太成熟。有关数据缺失值的处理可以参考以下两篇推文:

Q39. 请问讲义 33 页,被解释变量是否取取对数,什么时候选取对数有什么要求?

A: 取对数的作用

  1. 缓解离群值,或使变量更接近正态分布。

  2. 当 Y 取对数,X 取对数时,估计出的 OLS 系数可解释为弹性。若其中一者取对数,则解释为半弹性。百分比的变化更加直观,也符合经济学的常规传统。

  3. 当经济理论中为指数形式的函数,取对数可以将其变为线性函数。如 Cobb-Douglas 函数等。

    文中主要是对解释变量取对数,不是被解释变量。原因是解释变量是历史上的奴隶贸易数量,各种族之间可能差距大,是偏态分布,取对数后更接近正态分布,更好地避免了因为离群值造成的估计偏差。注意:OLS 一致性假设并不要求解释变量正态分布,所以具体问题具体分析。取对数后变量的经济涵义会改变,需要注意解释性。

整理:万莉 冯超楠 甘徐沁

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看

专题 嘉宾 直播/回看视频
最新专题 因果推断, 空间计量,寒暑假班等
数据清洗系列 游万海 直播, 88 元,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。

连享会主页  lianxh.cn
连享会主页 lianxh.cn