连享会·课程答疑
Stata 论文班-Day2,任课老师:江艇
Update:2021/2/3
课程主页:https://gitee.com/arlionn/PX
板书和答疑
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh
目录
引言
我们根据授课内容,将问题分为以下四类:
A: 样本选择偏误指估计样本不是感兴趣的总体的代表性样本。自选择偏误指个体的处理状态不是外生的,是每一个个体自己决定选择进入处理组或者控制组,而不是随机被分配到处理组或者控制组。本次课程讲的选择性偏误主要是指自选择偏误。
样本选择偏误与自选择偏误二者是不同的概念,但是之间存在一定的联系。虽然样本选择偏误往往指抽样问题,但很多时候样本选择偏误是由自选择偏误导致的,所以二者之间存在一定的联系,比如 Heckman 模型中提到的一个样本选择偏误例子,当需要估计一个工资方程时,即使某个体没有工作也应该估计出其假如参加工作的工资水平,但是实际能够使用的样本只涵盖有工作的人,从而造成了样本选择偏误。此时样本造成选择性的本质是每个人都是自选择地来决定其是否参加工作,因此样本选择偏误的来源是人们的自选择行为。
假如一个 D 对 Y 影响的分析中,我先在理论上认定了一种因果解释(渠道 A,无法在实证上找到变量或数据来证明),但同时认为可能存在另外的竞争性解释(渠道 B),使得我错误地将 D 对 Y 的因果效应归结于渠道 B。为了排除这个竞争性解释,伸张渠道 A 的解释,我找了个渠道 B 发挥作用的变量 W,通过回归 reg W D,发现 D 不显著,然后认定 D 对 Y 的因果效应不可能是由渠道 B 来解释,只能是渠道 A 来解释。这样的做法与 Nunn&Wantchekon(2011)将渠道 B 直接控制似有不同,但本质上是否是异曲同工?
A: 从计量理论来说,可以
reg W D
,如果发现 D 和 W 不相关,那么reg y D W
时,一般也不会 “吃掉” D 的效果,所以这种方法是可行的,但相对少见。
在斯托克的计量经济学第三版,有删减关键控制变量中不显著的控制变量的做法来看结论的稳健性,如果这些控制变量可以删减,那么为什么要放入关键控制变量中?
A: 一个控制变量是否关键来源于理论,但是如果实证结果发现对于某个特定样本,该关键控制变量不显著,可以再把其去掉,验证结果的稳健性。
如果按照潜在结果分析框架来审视工具变量法,工具变量法貌似没有反事实的逻辑,那么工具变量法是否能够真正识别出因果关系?是否只能说工具变量法能处理内生性问题,而不应该扩大化为其能识别因果关系?
A: 工具变量法有反事实的逻辑,Imbens & Angrist (1994) 描述了这个潜在因果框架。传统因果框架假设同质因果效应,但如果个体处理效应是异质的,则线性 IV 模型无法识别总体的因果效应,只能识别对处理敏感的人的局部平均处理效应(LATE)。
后来发展起来的 IV 方法可以估计边际处理效应(MTE),具体见 Heckman and Vytlacil 的一系列研究。
在研究渠道探讨竞争性解释时,是不是就是在回归中考虑了多个核心解释变量,那这时内生性问题是不是更大?论文原文中似乎也没讨论内生性问题。
A: 原文中确实没讨论竞争性解释的变量的内生性问题,原文甚至连原核心解释变量的内生性都不再“顾及”了,可以看到表 9 和表 10 并没有采用 IV 估计,而是 OLS 估计。这是因为此时论证的重点已经变成了两个互相竞争的解释之间的“赛马(horse race)”了,可以不必模糊焦点。
A: 基准回归应当尽可能满足一些条件:第一,基准回归中的估计是稳健的,即各种违背基准回归所需假设的问题基本不对回归结果有大的影响,即各种补充性的稳健性检验结果不能推翻基准回归的假设;第二,如果一些假设不能明确地通过稳健性检验判断合适与否,则采用最普遍、最为当前文献所接受的假设,作为基准回归的假设或设定,这是最不容易受到诟病的做法;最后,也是更重要的一点,基准回归应当能够回答论文的主要问题,此后的回归都仅仅是讨论稳健性或考虑异质性。
92 页识别策略中,
A: 这里的高低是指效应的意义:当考虑因果效应时,我们会关注 D 对 Y 影响的大小,影响大意味着这个因果关系的揭示是比较有意义的。因此,不考虑正负号的前提下,按照惯例,我们认为,-0.5 相对于-0.3 是一种对因果效应的高估。
A: 说反了,
和 的差异越小,selection ratio 越大。
A: >
stata
输入lianxh
过度识别
A: 个人觉得一个研究的都是要围绕关键的核心解释变量与被解释变量之间的关系进行展开,故如果想要进行调节效应分析,不应该基于控制变量,而是基于研究本身最关心的核心解释变量。
A: 因为控制固定效应本身的目的就在于进行组内比较,而不是组间比较,建议看江老师关于固定效应讲解的回放进一步了解该问题。
A: 这个确实没有太好的直观理解,详细的证明要看 Oster (2017)原文。
A: 排斥性约束是指的工具变量 Z 只能通过内生变量 X 去影响 Y,如果 Z 可以直接影响 Y(排斥性约束不满足),那么二阶段的 X 回归系数估计有偏。
其中,红色部分
A: 不可以。(你说的
就是我说的内生解释变量 。)你的意思相当于是说 和 之间的相关性是由从 到 的因果性所导致的,而不是由从 到 的相关性所导致的。 此时的
不是一个好的 IV 的原因在于,既然 会影响 ,而 又会影响 ,岂不是说明 会影响 ?那就违背外生性(独立性)假设啦! 这是一个好问题。它告诉我们,尽管我们常谈论 IV 的相关性,但这种相关性中其实蕴含着强烈的因果含义,倒过来是不行的。
A: 这里讲的匹配方法特指执行匹配思想的两种条件策略——非参数匹配和含控制变量线性回归——中的前者。
例如,当
, 时,如果采用非参数匹配方法,相当于分别计算 然后
“非参数”的含义就是对
的函数形式没有限制。 如果采用饱和模型,定义
, 此时有
有六个自由参数,正好分别由六个条件均值去估计,也就意味着对于
的函数形式也没有限制。所以,饱和模型虽然看起来是一种含控制变量的线性回归,是一种参数方法,但实际上其“线性”性质并不是一个实质性假设,条件期望函数取值的可能情形和自由参数的个数正好相等,这就是“饱和”的含义,饱和模型和非参数匹配方法的估计结果是完全等价的。 但如果采用非饱和模型,比如
此时有
此时条件期望函数取值的可能情形仍然是 6 种,但自由参数只有 4 个,也就意味着这个模型对
的函数形式施加了实质性假设,即 这种参数方法和非参数的匹配方法估计结果就不等价了。
第一天有同学问到,同时控制两个维度的固定效应是不是就相当于在两个维度上切割总体(样本),我的回答是否定的。现在大家就能看得更清楚了,非参数匹配方法相当于在两个维度上切割。而如果只控制两个维度的固定效应,还只是一个非饱和模型,所以它和非参数匹配方法不等价;但如果控制了两个维度的固定效应及其交互项,就是一个饱和模型了,它和非参数匹配方法等价,这时才能把它理解为相当于在两个维度上切割。
话说回来,笼统地把控制多个维度的固定效应理解为在多个维度上切割,问题也不大,只要我们心里清楚,它是伴随着额外假设的。
A: 不是,第一讲的固定效应指的是参数方法,隐含同质处理假定,将 Y 回归在 D 与一系列虚拟变量上;而第二讲的匹配是非参数方法,组间均值比较,不需要假定 Y|X 的条件均值在处理组和控制组之间具有某种函数形式假定,是非参数方法。参见 Q15。
A: 不同,局部处理效应 LATE 是指工具变量法,CATE 是指条件平均处理效应,是今天所讲的内容。简略地说,CATE 的条件集是可观测的,LATE 的条件集是不可观测的。
为什么用尼日尼亚数据做证伪检验的时候,没有报告没有控制个体变量的回归结果?在作用渠道中的第一个检验,可以解释为因为奴隶贸易使得当地政府质量下降,从而使得现在的人缺乏信任,即政府的质量是一个中介?如果不能做中介解释,那么是不是政府质量既影响 D 又影响 Y 需要被控制,如果需要被控制,在基准回归中,作者为什么没有控制?
A: 因为只有尼日利亚一个国家,因此没有所谓的个体固定效应。此时如果不控制个体变量,那就变成一个一元回归了,作者可能认为没有报告的价值。
作者实证检验得到的主要结论是,奴隶贸易影响人们的信任观念,让人们更加不信任政府。 但文章使用的被解释变量还暗含了另外一些机制,比如,奴隶贸易可能使得制度变差,因此实施差制度的政府不被人们信任,如果这一说法成立,则在主回归中控制人们对政府治理水平(质量)的评价,则感兴趣的系数会变得很小。但事实上,做了这样的控制之后,根据作者的说法,还有相当于基准回归 50%左右的感兴趣的系数大小存在,因此这个效应无法用这一机制完全解释。总之,这不是一个中介的问题,并且只是对机制的探索,不影响基准回归的主要结论。
A: 是标准误。
A: 不是说这些竞争性的渠道没有在起作用,而是说这些竞争性的渠道没有削弱文章重点探讨的理论机制的作用。也就是说后者确有其事,而不只是前者的反映。这个没有一定之规,要具体问题具体分析。比如,如果加入竞争性解释以后,核心解释变量的系数减小了 70-80%,就要令人担忧了。
A: 年龄的影响可能存在一个转折点,为了控制年龄的非线性影响。这是从 Mincer 的教育回报率的研究以来的一个通行做法,因为在这篇文章中,年龄是作为收入的代理变量出现的,而年龄和收入之间的关系一般被认为是倒 U 型的。
A: 见 lianxh 时间趋势。
A: 可以用 cmp 做,不过我没有实际做过,所以我只能猜测 margins 应该能得到它的边际效应。
事实上,你是见不到使用 iv oprobit 这种奇怪命令的正经文章的,原因我在课上讲过了。
A: 如果确信相邻地区的空气污染不会影响本地的工业生产,那么相邻地区的 PM2.5 就不一定需要控制,但是如果其与本地区空气污染高度相关,能够解释本地空气污染的很大一部分,那么把该变量进行控制可能提高模型的拟合程度以及核心变量的统计显著性。但需要注意的是,相邻地区的空气污染不一定不会影响本地的工业生产,比如有可能取决于相邻地区的污染协调机制。
是否需要控制本地上一期 PM2.5 方面,一是如果
的内生性问题不需要通过动态面板处理,可以不控制 。二是如果明确知道 与 不相关,可以不控制 。但很多时候控制因变量的滞后项,真正合理的解释应该是,通过这种控制来消除遗漏变量偏误,因为遗漏变量就是同时影响 和 的不可观测变量,那么控制 的滞后项,一定程度上控制了这些遗漏变量。
可以。可以把这个例子理解为就是一个模糊 RD。别忘了,模糊 RD 的估计方法恰恰就是工具变量方法。
A: 个人并非做环境经济学这一领域,所以只能按自己的理解解答。 首先建议看看相关文献,关于污染的国内外文献非常多,看看别人用的什么方法去识别,是否都有排污数据呢?如果没有是如何做的? 其次,关于推荐类似问题的文献,建议知网搜索一下关键词为“环境”或者“污染”的文献,在
top
期刊里面肯定很多类似文献,看看中文文献是怎么处理这个问题的。当然也可以看国外文献,但是你的数据是中国数据,目前问题也是数据的问题,所以建议看看国内其他学者是如何处理这种问题的。 最后,这个问题问得不够清晰。污染是因变量还是自变量?如果是自变量,那么高污染行业里面可能有低污染企业,而低污染行业可能有高污染企业,这样应该是低估了污染的影响?仅供参考。
A: 个人觉得如果是面板数据,除了时间固定效应之外,一般情况下至少还要控制观测值所在层面的固定效应,即如果是企业层面数据,需控制企业固定效应;如果是省份层面数据,则需要控制省份固定效应。此外,基于研究目的,还可以考虑双向固定效应。
stata
结果中的标准误为点或者 omitted
时,模型是否可进行讨论?A: 这个没法给一般性的诊断意见,要具体情况具体分析。比如在用 ivreg2 估计双向聚类稳健标准误时,如果回归方程中固定效应太多,标准误就有可能算不出来,这时可以用 partial 命令解决这个问题。
A: 这是在考察公司创新能力的影响指标,如果解释变量是呈现长尾分布,即包含较多零值,则推荐用 poisson;如果解释变量都只是正常成正太分布,则 ols 就能满足。如果有公司层面的面板数据,建议基准结果可以使用 OLS 进行回归,稳健性检验考虑使用 poisson 回归,可参考一篇以企业专利申请为被解释变量的文章 Intermediate input imports and innovations: Evidence from Chinese firms’ patent filings,Journal of International Economics。
A: 理论和实证的结合是今后的大趋势,但一篇文章还是会有侧重。比如一篇重理论的文章,会把实证部分放在先,为理论模型提供 motivation (motivating evidence),此时可能不会特别严格地、大篇幅地去处理内生性问题;一篇重实证的文章,会把理论部分放在先,为计量方程的设定和系数的解释提供一定的指引,但这种模型一般是 highly stylized,甚至是 toy model。还有一种结构估计的实证文章,因为其实证部分就是在估计理论模型本身,此时从理论建模到实证分析都是很 serious 的。
A: 不要只看术语本身,要看术语的具体所指。我最常见到的叫法,当我们谈回归模型的时候,会把总体回归模型的
叫做扰动项,而把样本的 叫做残差。当我们谈因果模型和回归模型的区别的时候,会把因果模型的 叫做(结构)扰动项,而把回归模型的 叫做期望残差(expectational residual)。
整理:
吕卓阳
全禹澄
徐阳
袁煜玲
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟,课程主页 Stata 33 讲 - 连玉君, 每讲 15 分钟. Stata 小白的取经之路 - 龙志能,时长:2 小时,课程主页 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 因果推断, 空间计量,寒暑假班等 | |
⭕ 数据清洗系列 | 游万海 | 直播, 88 元,已上线 |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会学习群-常见问题解答汇总:
✨ https://gitee.com/arlionn/WD
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh