连享会·课程答疑
Stata 论文班-Day1,任课老师:江艇
Update:2021/2/3 8:30
???? 课程主页:https://gitee.com/arlionn/PX
???? 板书和答疑
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh
目录
引言
我们根据授课内容,将问题分为以下四类:
A: 个人理解:外生性指的是
和真实扰动项无关,是因果模型的假设(类似先验信念)。老师后来说“回归模型里的外生性是结论”, 是通过求 的 FOC(一阶导)得到。 这里的 其实是残差( 与其拟合值之间的差),而不是真实扰动项。
看 20210202 视频中因果模型与回归模型区别部分内容。OLS 估计永远是回归系数的一致估计量,如果只是想研究相关关系,OLS 估计量是相关性好的度量,但因果效应讲的是因果性,是线性因果模型(老师也称其为结构模型)的参数,区别于回归参数,结构参数的识别需要有关键识别假设。
A: 回看 20210202 视频中因果模型与回归模型区别部分内容。同样一个模型
,我们有两种理解,一种是因果模型,一种是回归模型。作为回归模型,外生性不是假设,是结论;作为因果模型,外生性是一个假设。
A: 如果
和 相关,且 留在了扰动项里面,此时 的估计不一致。当我们将 从扰动项中剥离出来后,目标是希望 与扰动项中剩余部分不相关,此时 系数是一致估计量,而剥离出来的 与残余在扰动项中部分可能存在相关性,因此 系数的估计是不一致的,我们主要是想保证 系数的一致性,因此无需过多关注 X 系数估计值。 因果估计效应与一致估计量的关系:回看 20210202 视频中因果模型与回归模型区别部分内容。OLS 估计永远是回归系数的一致估计量,如果只是想研究相关关系,OLS 估计量是相关性好的度量,但因果效应讲的是因果性,是结构参数,区别于回归参数,结构参数的识别需要有关键识别假设。
A: 一致性:Consistency;有效性:Efficiency;统计显著性:Significance。 有效性和统计显著性在概念上有差异。有效性若使用 MSE 标准,是在衡量估计量的优劣程度,若都是无偏估计量的情况下,方差更小则是更有效的估计量。统计显著性是针对假设检验而言的,即可以根据对总体参数的样本估计做出对总体参数的统计推断。
遗漏变量藏在扰动项里面,会降低回归的整体拟合程度,系数估计的标准误自然就更大,统计显著性下降。
A: 假设
,则 是 对 的偏效应, 是 对 的偏效应。此时有 ,共同效应体现在 。 相关推文可参考 R2分解:相对重要性分析 (Dominance Analysis)。
A: 可以不解释,关键在于解读核心解释变量。
A: 因为第二个作用是为了因果识别,将扰动项中与
相关的因素剥离出来,使得剩下的扰动项和 不相关,这样能保证因果识别假设成立。只有在识别假设成立的前提下,估计出的 的系数才能够反映核心解释变量与被解释变量的因果关系。
A: 首先要区分是核心解释变量还是控制变量的变动范围。这两个变量都需要 variation,在课堂上讲的是核心变量的 variation,当我们控制了固定效应以后,对核心解释变量的 variation 就提出了更高的要求。因为在固定效应中,使用的是组内的 variation。
比如:(研究教育回报率时)数据中只有本科生和研究生,这是否算variation 足够呢?还有比如很多同学经常关心的样本是否够大的问题,比如计量教科书和老师们常提到的样本越大越好,但是样本到底多大算大呢?经济学并非一门 hard science,而这些其实都可以归类为"False question"。
这些问题的答案是取决于讲的故事是否漂亮。当故事很漂亮时,观测值很小,哪怕只有 10 几 20 个,也可以做出很好的研究。比如最近Zhiguo He 老师发在 Journal of Finance 上的其中一个回归只有 7个observations。所以研究是否出色,取决于故事,不在于样本量。
回到教育回报率中只有研究生和本科生的样本的问题。在统计上,足够的 variation 更可能估计出显著的结果,但更重要的是对这里的系数的解释是什么。实际上在此,教育回报率只能解释为相比于本科教育,再去读研究生的影响。这样的估计结果的外推能力较弱,比如它不能够对初中生是否上高中这种人力资本投资给出一定参考的价值。
所以,在这类问题中,并没有一个一般性的评价法则去规定到底多少variation 才算大,关键还是在于是否能够讲出漂亮的故事,以及对估计结果的合理解读。
A: 不需要控制两次。固定效应是一种特殊的控制变量,是以虚拟变量方式出现的控制变量。
A: 固定效应是一种特殊的控制变量,是以虚拟变量方式出现的控制变量。
A: 当变量为二元,0-1时,“控制变量=固定效应”。若不为二元,概念不等价。
模型如下:
若
为 dummy(例如男性女性),其数据结构为(男,女,男,男,男,女,男),则 ,估计出的 OLS 系数为 。变为控制性别固定效应(固定效应模型同 least square dummy variables 模型在数学上等级,即 stata
中的i.
),生成的两个虚拟变量为 X_2_male=(1,0,1,1,1,0,1) 和X_2_female=(0,1,0,0,0,1,0)。那么可以看到这两个虚拟变量因为共线性(加起来和截距项共线)并不能够同时加入回归。如果省略掉X_2_male,那么 LSDV 中 X_2female 估计系数为。若省略 X_2_female,则为 。因此等价。 当变量不为二元时,比如教育水平=高中/本科/研究生。若 code 为 0,1,2 并加入控制变量,隐含的假设是每提升一级,其对 Y 的作用是相同的,因为模型为线性。若变成固定效应,则相当于认为每种教育水平的个体有不同的截距,从高中到本科和本科到研究生,模型的Y的截距上升是不同的。当然,正如江老师所说,此时只有组内 variation 有效。
参考陈强《高级计量经济学与stata应用》中固定效应章节。
A: 使用截面数据时,无法控制个体效应,因为控制个体效应,则相当于令每个个体一个类别,每个类别内部只有一个个体,没有变动性,故无法估计。在面板数据等时,在另外的维度扩充数据,从而使得在同一个个体内部出现变动性,此时才可以使用固定效应。
A: 第一个问题:组内的变动性不足,则该组在估计时不会被用上。例如研究教育回报率时,考虑性别因素,若教育水平在男性中有充足的变动,但在女性组内无充足变动性,则以为估计所得的系数基本是由男性组数据估计值决定的,而女性组样本数据对最后的估计结果无贡献。 第二个问题:会在 20210203 匹配部分提及。线性控制很多 X,与多维度上分割数据不等同,例如控制变量为
、 ,我们一般只需要控制 、 ,此时控制变量是线性增长的,而多维度分割数据等同于控制 、 、 * ,后者控制变量会以指数型增长,两者存在差异。
A: 左区间为将
和 可以解释的部分中,共同解释的归因于 。右区间为共同解释的部分归因为 。故真实 可解释部分居于二者之间。分母是 和 的解释效应总和,包括 可解释的, 可解释的,以及 和 可解释的。 此问题对公式理解有误。 补充:这个问题问的是讲义 45 页的第二个公式。这个公式是在(控制
前提下)比较 和 的相对解释力。分母确实也有低估高估的问题,但这个问题涉及的是 的解释力的评估,跟我们要讨论的问题没有关系(用大白话说,反正分母都是同一个)。
A: 是。
A: 聚类标准误是更多是从故事角度出发去对数据生成过程做出的假设。(截面数据)如被解释变量为企业,解释变量为行业,此时聚类到行业,是因为上同一个行业的企业中,其扰动项很可能是相关的:同一个行业使用同种类型的劳动力、技术,受到同一法律法规限制等。不论被解释变量的层级如何,考虑扰动项聚类结构假设时应从经济学原理角度出发,更为合理。
补充:你一般见不到被解释变量数据层级高过解释变量的情形。试想:用企业变量去解释城市变量,这不合理嘛!
A: 在截面数据研究中,这样的固定效应是不合理的。但如果是面板数据,也就是同一个企业有不同时间的数据,此时企业固定效应的控制没有问题。具体控制行业层面数据还是企业层面数据要看数据的结果以及研究问题的情景,根据实际经济意义出发。
A: 否。 无论样本多小,只要组间有足够的variation,都可以采用固定效应。这种控制是实证研究中的基本操作。
A: 正如江艇老师所说的,现如今经济科学研究,往往一篇文章因果推断只能解决某一个影响因素的讨论。如果同一篇文章需要讨论多个影响因素,更现实的情况是考虑将其视作相关性而不是因果性研究。在因果推断实证(经济学)领域来看,以上是目前主流思路。
A: 不控制种族固定效应的原因:核心解释变量是种族层面的,若控制种族固定效应,则每个种族内部核心解释变量无变动性,导致因果关系无法识别。
不控制区域层面固定效应的原因:通过数据检查,绝大多数样本中区域内只含一个种族,若控制区域层面固定效应,会导致只含一个种族区域的样本数据缺失,使估计结果产生偏误。
A: 上课的论文是一直控制国家固定效应的,去除国家固定效应是在探讨核心被解释变量对被解释变量的解释力度时,只比较了核心被解释变量和控制变量的解释力度,一般而言,固定效应的解释力度很大,与固定效应比较没有太大意义。
A: 理论上是可以的。
A: Colonial RULE 才是需要考虑的遗漏变量,指的是殖民统治带来的许许多多的例如政治制度调整、经济改变等,并非“是否被殖民过”本身。
殖民统治对非洲大陆政治经济文化等层面的影响是极其重大而深远的,所以其很可能影响了居民的信任水平。考虑某种情况,即奴隶贸易很猖獗的地方,其更可能后来受到严重的剥削性殖民统治,那么很可能殖民统治才是造成信任下降的原因,而并非奴隶贸易本身。这便是担忧的所谓遗漏变量偏误,需要加入控制变量。
A: 按照作者自己的理论,税率越高,逃税越猖獗,所以提高税率没有办法增加税收收入。当然如果对这个问题想要有更完整的认识,建议去看原文。
cluster(City province)
,那城市cluster(city) cluster(province)
吗?② 双向聚类为 cluster(A B)
,那 cluster(A B C)
是属于多重聚类?三重聚类?A: ① 因为 city 是 nested in province 的,一个城市不可能属于两个省份。所以在聚类标准误时 city
province = city,不需要用 city province,但是可以出现 city industry 的交叉项的聚类层级(因为它们俩不是彼此包含的关系)。在 reghdfe
命令中,使用选项cluster(city#industry)
即可实现。 ② 是。
xi:logistic y x1 x2
是什么意思呢?A:
logistic y x1 x2
表示对 、 做 logic 回归。 xi:
主要用于或 中含虚拟变量的情形,若虚拟变量非字符串,则在 Stata12 及之后的版本中无需加 xi:
;若虚拟变量含字符串,则需加xi:
。
ivreg
和 ivreg2sls
功能不一样吗,面板中的ivreg2sls
后面加工具变量,上课讲的 ivreg
好像和工具变量没有关系?A:
ivreg
和ivreg2sls
具体的差异见help ivreg
和help ivreg2sls
。两个命令都可以用来做工具变量回归,同时也可以做普通 OLS 回归。
A: 具体看代码文件,是根据公式手动计算。
********************************************************
*** Variance Decomposition - for discussion in paper ***
********************************************************
preserve
for @ in any trust_neighbors ln_export_area murdock_name age age2 male urban_dum education occupation religion living_conditions district_ethnic_frac frac_ethnicity_in_district isocode: drop if missing(@)==1
/* None */
xi: reg trust_neighbors i.isocode
scalar r2_1=e(r2)
/* Slave Trade Only */
xi: reg trust_neighbors ln_export_area i.isocode
scalar r2_2=e(r2)
/* Other Characteristics */
xi: reg trust_neighbors $baseline_controls
scalar r2_3=e(r2)
/* Both */
xi: reg trust_neighbors ln_export_area $baseline_controls
scalar r2_4=e(r2)
di "[", (r2_4-r2_3)/(r2_4-r2_1), ",", (r2_2-r2_1)/(r2_4-r2_1),"]"
restore
A: 同 Q27。
x_ols2
出现报错 comman x_ols2 is not recognized
。A: 为了运行
x_ols2
命令,请将 x_ols2 (群里有) 下载好后,放在 PX_C_2021a\adofiles\x 文件夹里。
A: 这三幅图都不是从论文原文中来的,但是这三个话题都有大量的文献,1 较经典的文献有 Angrist and Keueger (1991);2 最著名的研究是 Angrist and Lavy (1999, QJE),以及大量关键词为 Project STAR 的论文;3 包括 Rajan and Zingales (1998, AER) 以及 Beck and Levine 等人的大量研究。
A: 分多次回归,一个一个地测试。
A: 无论数据是什么结构,面板数据或者截面数据,我们只需要关注核心解释变量的内生性问题。控制变量的内生性只会影响控制变量前系数估计是否一致,不是我们研究的重点,因此无需考虑。
A: newey-west 方法考虑到了高阶自相关,它利用非参数 HAC法对标准误进行调整,估计得到标准误的一致估计量,而不影响 OLS 估计值。聚类稳健标准误的推导涉及大量计量知识,建议翻看相关计量课本。
reg y x
的结果是显著的;然而加入robust
之后,reg y x
,robust
的结果就不显著了。请问这是什么原因呢?应该怎样解决才能尽可能得到稳健又显著的结果呢?A:
robust
选项表明标准误经过 White 异方差修正,从而使结果更稳健。是否加robust
选项最好从经济意义上去选择和说明。一般文献中,都加robust
,得到的结果才能使人信服。
A: 没有标准的答案,具体问题具体分析。首先,可以参考该领域的文章规范,看其对因果推断有多高要求。当想论证多个同等重要的解释变量时,可以同时处理多个变量的内生性问题,若不能很好地解决内生性问题,在进行解读时要注重 tone,即要度量话说几分满。
logit
而是要用 reg
吗?如果我们收集到的原始数据存在明显的错误项或缺失项,我们应该怎么处理比较好呢?A: 可以用
logit
,只是reg
在论文中更常用。含固定效应的离散选择模型目前还不太成熟。有关数据缺失值的处理可以参考以下两篇推文:
A: 取对数的作用
缓解离群值,或使变量更接近正态分布。
当 Y 取对数,X 取对数时,估计出的 OLS 系数可解释为弹性。若其中一者取对数,则解释为半弹性。百分比的变化更加直观,也符合经济学的常规传统。
当经济理论中为指数形式的函数,取对数可以将其变为线性函数。如 Cobb-Douglas 函数等。
文中主要是对解释变量取对数,不是被解释变量。原因是解释变量是历史上的奴隶贸易数量,各种族之间可能差距大,是偏态分布,取对数后更接近正态分布,更好地避免了因为离群值造成的估计偏差。注意:OLS 一致性假设并不要求解释变量正态分布,所以具体问题具体分析。取对数后变量的经济涵义会改变,需要注意解释性。
整理:
万莉
冯超楠
甘徐沁
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟,课程主页 Stata 33 讲 - 连玉君, 每讲 15 分钟. Stata 小白的取经之路 - 龙志能,时长:2 小时,课程主页 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 因果推断, 空间计量,寒暑假班等 | |
⭕ 数据清洗系列 | 游万海 | 直播, 88 元,已上线 |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们