连享会·课程答疑
Stata 高级班-Day1,任课老师:连玉君
Update:2021/1/29 20:00
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh
目录
Stata 高级班-Day1,任课老师:连玉君
Update:2021/1/29 16:50
???? 课程主页:https://gitee.com/arlionn/PX
???? 板书和答疑
A: 两种方案都可以行。首先,取对数的好处在于很大程度上可以克服离群值对回归结果的干扰,有助于做定性的判断,比如X和Y的关系。但是要注意到取完对数以后,二者之间的关系已经变成一个弹性的概念,因此也可以把取对数的回归结果放到稳健性检验;其次,关于主回归结果在不取对数的情况下,可以做一些缩尾处理,比如用Bootstrap 方法考察异方差,稳健性的标准误等。
xtreg lnFVC lnPCDI lnheight lnweight P90 P97 P07 yr*, fe robust
其中
请教连老师,
A1: 重点在于需要找一些证据说明学校真的是执行了这三个政策,且这些政策是强制执行的,比如说政策直接与中考入学,大学入学挂钩等,这样可以证明两者之间存在较强的相关性,否则就说明属于弱相关性。在弱相关性的情况下,就没有办法拿政策作为代理变量,因为三个政策很可能是政府层面摆pose的一个指标,并不能真正反映学生在做体育训练,这个需要在文章里面做一些篇幅来去讨论和论述政策的相关性。
A2: 如果是我来做论文的话,我不会把事儿做的这么暧昧,同一组变量既可以担当A的责任,又可以担当B的责任,这个会让审稿人非常的迷惑,到底你这组变量想说什么事呢?按照你这个逻辑,这三个变量又可以代表学校体育锻炼的程度,又在探讨宏观上时间的一些效应,那你估出来的系数到底在说谁的效应呢?是随着时间的推移,大家对体育越来越重视呢,还是学校让学生加强体育锻炼带来的后果呢?很难区分到底是谁带来的效应,这个是做统计推断或者政策效应识别的时候特别棘手的问题。
A3: 参考A2答案,重点还是在于很难识别政策效应。
xtreg lnFVC lnGDP lnGDP2 lnheight lnweight P90 p97 P07 yer*, fe robust
其中,GDP2=GDP^2 平方项。
请问如何控制了其他变量条件下做GDP对心肺耐力的边际效应图?直接用xtavplot GDP GDP2,这样可以操作吗? 试了一下好像不可以。老师可以告知具体的命令吗?临近毕业,手头有两篇paper,着急发出去,此外,在请教你们之前我也做了不少搜索,还是没整明白,所以报了寒假班想请高人指导一下,谢谢连老师。
A: 命令是
margins
,help marginsplot
A: 在固定效应模型中,固定效应类似一个黑箱子,它体现了所有不随时间变化的因素,既包括可以观测到的变量,也包括那些不可观测的变量。所以根据你的研究没有必要非得去用一个固定效应模型,因为你的研究目的主要在于把这些要素识别出来。
. reg y x1-x5 e social i.minzu
其中,
A: GMM本身就是一个固定效应类的估计方法。系统GMM 不是一个模型,只是一个估计方法。目前主流的三个估计方法有:一是最小二乘法;二是广义矩估计方法( GMM);三是最大似然估计方法(MLE)。GMM 估计方法本来就是应对内生性问题的,即使不是做动态面板模型,只要存在一个或者多个内生变量,就可以基于理论的分析找出它对应的矩条件,即在假设干扰项不存在相关的前提下,可以构造相应的矩条件,再对模型展开估计,所以是否采用 GMM 估计与你模型本身有没有动态关系无直接关联,重点在于确认解释变量是内生还是外生,进而构造相关矩条件。
A1: 参考以下专题:
另外一个办法就是,如果数据时间跨度较长,比如时间上长度超过6年,可以考虑做一个面板VAR模型。
A2: 性别等不随时间变化的变量已经在个体固定效应包括了,如果所关心的系数所对应的变量不随时间变化的话,那么控制个体固定效应后就不需要控制不随时间改变的变量了。
A: 参考以下专题:
A: 这样做会导致一个鸡生蛋蛋生鸡的问题。首先,预测残差是第1步做的工作,这里面依赖于一个假设,即要保证所找的工具变量是外生的,此时得到的残差才是一个无偏估计。其次,在做第2步的时候,是依赖于第1步的,由于工具变量是外生的,如果拿残差去检验你的工具变量是不是外生的,在逻辑上有点绕。重点在于至少要有两个以上的工具变量,才可以去检验工具变量是不是外生,做法是只能假设其中有一个是好的工具变量,再检验另外一个工具变量所得到的结果是不是一致,反之亦然,这也是过度识别检验里边大家普遍面临的问题,到现在也没有解。
A: 首先,关于合并数据问题的做法是没问题的,即每一天的roe都对应当年的roe。其次,关于滞后项使用问题,根据你所建立的回归分析背后的理论基础是什么?如果你根据CPM模型或者是3因子、5因子模型的话,可能未必需要加入年度收益率,如果非要选择放的话,模型就变成考察去年的roe会不会影响今年每一天的股票收益。但是,我们目前一般是反过来做,比如2020年的 JFE 就专门有一篇文章做这方面研究,他是通过探讨市场上股价的表现,进而得出股价表现是否有助于预测未来一年两年甚至到第5年 roe的变动。
当然,你的模型设定从操作上将是可以的,但是困难在于理论基础的解释,即背后的经济意义是什么?
A: 不进行fd不违背理论GMM的两个假设,但是经常我们做panel的时候会面临很多个截面资料,如果不去除个体效应的话,就需要用一个搭配的方式。另外,在动态面板的相关理论文献里,也不太区分个体效应 到底是固定效应还是随机效应,如果把个体效应当成干扰项的一部分,那会导致模型存在内生性问题,所以标准的作做法是先做一阶差分,把个体效应去掉。
GMM
相比 2SLS
来说,有更一般的假设,因为它允许 Z
与 Error Term
相关,似乎更加灵活、也更容易满足实际情况。那么想问一下这是不是说明 GMM
是更优的估计方法呢?如果不能一概而论,那么 2SLS
和 GMM
分别适用于什么情况呢?A: 我的观点是:如果你能够非常肯定地确认,你的那个工具变量是严格外生的,例如 Angrist 他们做的那篇讲教育回报的文章,用小孩出生的季度(哪个月出生的)的虚拟变量来作为教育的工具变量,已经可以确认这个工具变量的是严格外生的,那就用
IV
或者两阶段最小二乘法就可以了。GMM
其实更多的时候会用在一些两阶段最小二乘根本没有办法搞定的问题上,比如说我们做欧拉方程时候,里边会有一些非线性的关系,但是我们从从GMM
的角度,我们就是找一些矩条件,即使那个矩条件是非线性的,只要能写出一个谁和谁正交的矩条件,我们就可以去估计里面的参数。 另外呢,就是涉及到多方程估计的时候,普通最小二乘法此时也搞不定。但是对于多方程估计,如果我们用GMM
其实就不困难,就像今天大家看到的动态面板一样,我们可以给每一期有不同的工具变量,只需要把那些工具变量都收集起来,放到一个大的Z
矩阵里,那个Z
矩阵就是工具变量的矩阵集合,然后,再让它去跟那个干扰项构成的向量去做正交,然后取期望,我们就可以把里面的所有参数全部都估计出来,但是这个你用两阶段最小二乘根本搞不定,对不对? 下面呢,我觉得你就可以去找几本书啊,把GMM
和两阶段最小二乘交叉着去看一看,这样你对于你这个问题就会有更清晰的答案啊,我刚才给您的回答也已经把多数的要点都给覆盖到了。
GMM
检验呢,这样的话需要人为加一个因变量的滞后项,是否与原模型冲突呢?另外,回归时自变量一定需要滞后吗,控制变量也需要滞后吗,还是只需要 X
滞后,CV
和因变量保持同期即可,课上展示的 GMM
模型中我看 X
和 Y
都是同期,再内生检验说明,但是导师非要滞后,我觉得很矛盾)A1: 首先你的第1个问题,就是你的模型等号右侧没有出现被解释变量的滞后项,那就相当于你的理论分析认为,被解释变量的一阶之后,将不会对当期的这个被解释变量产生影响,也就是整个模型系统的变量之间的变动关系里边,不存在一个动态的关系。你在内生性检验这个环节上突然就引进来一个动态关系,那是不是代表说你前面那些分析都是错的,这样的话,就不单单是一个内生性检验的问题了。通常来说,内生性检验是在你主体模型的架构里面,可能会怀疑其中某一个解释变量是内生的,你再去分析它内生性是怎么导致的,是因为遗漏的变量,还是因为样本选择,还是因为有一些变量衡量的不准确,比如说像能力呀等等这些,你就要有针对性的再去多做一些处理。因此,从你的描述来看,你这纯粹是给自己找事儿啊,弄一火坑跳进去,我还不知道你能不能出得来。
A2: 第2个问题就是解释变量要不要放滞后?这个就看你分析什么问题了。譬如说,我做那个资本结构的研究,我们模型中的那些解释变量实际上是在解释目标资本结构的变动。那公司的财务报表,你可以看到对手的季报,就是每隔三个月,你可以看到一次,所以这时候呢,你放同期的可以解释过去,因为在年底的时候去看,我虽然不能够看到你第四季度的财务报表,但是前三季度的财报我都能看到,所以同期呢,我根据对手的信息来做决策,或者跟我自身的信息来做决策,是有道理的。但是你放上一期的解释变量也可以说的通,就相当于这个公司的CEO,在决策的时候,重点关注的是去年的表现,然后我来确定今年是什么样子的。也有些文章就只能放同期的,比如说,我在研究同行业内部公司的同行效应,那我一般是盯住它当期的表现,我来做决策或者是这种博弈的事情,那你放滞后一期的肯定就说不通了,所以我觉得到底是放当期的,滞后一期的还是把二者都同时放在模型里边,跟你前面的理论分析有很大的关系,你要确定整个的决策是基于一个什么样的信息集合做出来的,这才能进一步的确认模型里面到底是放当期项还是滞后项。另外一个途径就是看前期文献啊,要找这个Top期刊的文章,看他们是怎么设定的,那个风险呢就会相对小一点,但是我觉得主导的决策还是依赖于你自己的一个理论分析。
if soe==1
)和与 x
交乘( i.soe##c.x
)结果上如何解读 soe
对 y
的影响?这两种算法是否等价,有什么区别呢?A: 这个我们在初级班里已经讲过了,昨天下午答疑的时候也说过这个问题,你可以翻一下昨天的答疑记录。下面这篇推文对这个问题讲得非常非常的清楚。
A: 我觉得有一个最大的挑战就来自于统计学的这个问题啊,0.5跟0.56 0.43 0.42在统计上我们都只能是假设自己有一个犯错的概率,所以你平时做假设检验的时候,也只是说在5%的水平上10%的水平上,你给自己留了一些犯错的余地。所以你要想去检验你得到那个系数,比如说-0.65,它跟0.5之间有没有显著的差别,你可能是设定一个足够灵敏的统计量,才能抓住这种差别,否则的话干不了。 换句话讲,按照你说的这个思路呢,肯定是可行的啊,可以去做,但是犯错的概率要比我们去看差分项的二阶的相关系数,要大得多,所以大家还是选择了一个相对保守的做法,因为从工作量上两者是差不多的。还有一件最重要的事,因为那个一阶序列相关的东西你能看到吗?你只能看到一阶差分的干扰项跟他的滞后一期的相关系数,但是你没有办法看到水平的干扰项的这个一阶相关系数啊,看不到。只能看到
,但看不到
xtarsim
时,连老师使用的gamma (0.6)beta(1.3)\rho(0.2)/// one (corr 3) sn(9) seed(1234)
都有些什么含义?比如我自己使用自己的数据的时候应该或者可以使用什么样的数值做gamma, beta, rho
等?A: 我上课用这个命令,只是产生一组模拟的数据来演示动态面板模型的估计,也就是
xtabond
的那个命令。你自己真正做的时候啊,你得拿一笔真实的数据去做,你不能拿模拟数据做一篇文章去发表吧。那至于说那里边那些参数的含义,你要看一下那个命令的帮助(Stata help)文件,它其实就是数据生成过程里边的一些基本设定,所以我觉得你可能也没有必要去看它,就是我告诉你说产生的数据里边你最关心的那个gamma
的系数,我告诉你它的真实值是0.6,这是我为什么要做我们看的模拟,我们知道真实的参数是多少,我才有判断的基准,这样才可以去评判手头的这三种估计方法哪一个表现的最好。
GMM
估计吗?如果可以,如何解释系数呢?比如,当期汇率对前一期汇率,还有一堆 x
做回归,而汇率是非平稳序列,此时应该如何处理呢?IV
的组合,比如工具变量选择 A1: 应该是不行了,这时候如果你用原始数据去做,因为它本身是非平稳的序列,那你就得考虑这个面板协整误差修正模型要探讨长期的和短期的关系。那你要坚持用动态面板,你就只能用对数差分的变量来去做了。这时候就不能看这个变量的水平值的变动,而是要看它的增长率了。也就是说,我们讲的这个动态面板都是针对于序列平稳的情形来做的,非平稳的时候全都跑到了协整那个圈里面去做了。
A2: 贡献性你只能说那个你那两个变量有一个比较高的相关性,但是只要不是完全贡献性或者严重的贡献性,对我的估计结果,也不会产生什么实质性的影响。我给你举那个例子呢,我就代表说
也可以做工具变量,但你可以选择不用假设你手头的数据足够的长,你为什么不用 作为工具变量非要跑去用 做工具变量呢?Emm,通常这种贡献性呢不用特别担心,因为我们做动态面板的时候,多数的样本都是截面的数量特别大,时间相对比较短。
Matlab
。A: 我根据我看到的内容,我猜了一下,你应该是想问不同领域都用什么软件是吧?或者是用什么语言?我觉得这个无所谓,反正你就是缺啥补啥呗,我觉得我用Stata 大多数的问题都足够能应对啊,有的人像我有一些同事他们好多数据处理,他就用Excel搞定,因为他对Excel那些高级的函数Excel里面写程序他非常的熟练,还是 CFA 出身,那也没问题啊,反正我们也照样可以合作,所以呢,你就看你做什么东西了,如果你去做可计算一般均衡
DSGE
那套东西,我估计Stata
是可以搞一部分,但是,就没有那几个专业的软件那么方便。
FD-GMM
和系统 GMM
怎么选择?分别在什么情况下使用呢?现在是不是基本都在使用系统 GMM
?A: 假设估计模型为
,在用 xtabond
做FD-GMM
估计时,当低于 0.8 时, FDGMM
是比较理想的估计方法,当高于 0.8, 接近 1 时,建议使用 SYS-GMM
估计, 因为FD-GMM
会出现弱工具变量的问题。0.8 是我的一个经验,看了很多文献之后觉得 0.8 是个比较合适的值,你可以看一下 Flannary(2013) 这篇文章模拟分析的部分,他们有对比,在不同的数值的情况下,FD_GMM 和 System_GMM 的差别。你在自己文章里边写的时候呢,我反正建议就是 偏大的时候,比如说 大于 0.8,那你就应该同时出现两个结果,而且从刚才那篇 2013 年的文章我们都这种情况下更相信系统 GMM 的估计结果。(回答:连老师)
A: 查了一下帮助文件
help abond
→help vce_option
在 Stata 里输入xtabond y x, robust
是计算 Huber/White/sandwich estimator 标准误,这与xtreg y x, fe robust
中的 robust 的含义还是不同的。后者等价于cluter(id)
。
A: 不太懂。
A: 你有没有查过资料去看过这两种方法,如果你说的逻辑回归是logit回归,我感觉这两个没法放在一起比,逻辑回归的被解释变量是一个01变量。 而逐步回归法实际上是筛选变量的一种方式,比如说我手头有30个变量,我不太确定哪些应该放到模型里,可以把30个变量全丢模型里看下,哪些特别不显著,比如说第1轮确定P值大于0.5的删除,然后进一步的把剩下的25个放进去,把P值大于0.2的全部删掉,重复该步骤,保留下来你设定的显著水平的那些变量。
A: 目前就我看到的文献最多的是处理6个变量,程序内部好像超过6个变量会跑不出来。这个就回到了经济学建模的一个理念的问题。假如一个画家画的跟那真人没有任何差别,我觉得可能就失去了作为一个画家最重要的东西,表达一种精神或者思想,如果皮肤毛孔都画得超级气质,那要相机干什么呢?以前宫廷作画,画皇帝,那是因为没有相机,所以要画的像,但是中国的画家历代也是以写意为主,除了类似工笔画的宋徽宗那类。而现在有相机以后,大都转向印象画派去了。做模型跟这个是一个道理,要是你能通过几个最关键的变量,非常骨感的一个模型,把这个问题的本质给说清楚。不用胡子眉毛一把抓,所以你在模型里边,不是放的变量越多越好。它反映不出问题的主线条来。如果你有10个变量,可以从理论上分析,哪些变量是最核心的,留下来那么3、4、5个变量来重点分析,其它那些可以不用放进来。
A: 看你做的领域,如果是做公司金融会计和财务这些领域,对象都是一些财务比率,比如说公司的负债率、盈利能力等一些指标,这些指标呢长期来讲都不可能出现单位根过程,你所谓那个单位根过程都是水平值,像人均GDP,人均财政支出这一类,它可能有通货膨胀、经济增长带来的自然往上走的过程,如果是换算到人均GDP增长率,也不可能出现单位根。所以像公司金融这个领域,大家都不做单位根,你做了大家反而觉得很奇怪,可是你如果研究的问题是区域经济学财政,经常面临人均GDP或人均GDP的自然对数,这种指标你就得做单位根。这个是非常有必要的。另外一个判断标准,就是看你前期文献这些大牛学者,他们在处理你研究的那些变量的时候采用什么样的手法和手段。遵守行规就是最安全的一个办法。
A: 学任何一个工具都是为了用的,所以你得想清楚你学了这个有没有用,如果你写的东西经常要涉及很多数学公式,你本身又是个处女座,对于排版又有非常高的要求,我强烈建议你学一下。其实你花了一周的时间学了一下,后来不用它,它也会带来一个特别重要的好处,就是提高你的审美能力。 相反,你以往对于写代码这种东西就一直很头疼,我觉得你还是花点心思找本word排版的书把它搞明白,我可以用word排出接近于Latex的效果,因为我看过台湾的一个教授的书《word的排版艺术》,用word也变得得心应手,当然有另外一个原因是我之前折腾过很长一段时间Latex,所以我大概知道我想要一个什么样的效果。 如果目标的问题解决了,你去学这个东西的动力自然就有,百度一下,有各种各样的视频和资料,最好就跑到论坛,有现成软件安装包和模板直接套着用一下,两三天应该可以排出一份文档,后面你再学一下数学公式怎么敲,这问题基本上就解决了。 你看现在都不用重量级的Latex的排版,现在全都是Mark down,花个5分钟记一些简单的标记就可以了,这个文档等一会儿弄完以后稍微排一下就可以输出成PDF格式,也可以转成word格式,所以有可能你学Markdown反而比学Latex更实用一些。
A: 嗯,这问题分两层,如果你不太清楚执行期间怎么看这个问题就很简单,执行期间上下限的符号要一致就代表它是显著的,如果两个符号都是正的,就代表包住的那个政策效果统计上显著为正,如果执行期间上下限都是负的,那就代表政策效果是显著为负。 第2层的问题,可能就在于我们那个置信区间是怎么算出来的?这个呢就要花点精力了,详细的见下图推导。
A: 格兰杰因果不是真正的因果关系,格兰杰因果是指在控制了自己的滞后项之后,看另外一个变量的滞后项是否对我有解释能力,用来解决的问题就是如果你认为某一个变量的历史数值对另一个变量现在的变动有解释力,那么就可以做一个政策建议。
A:
弱工具变量检验,原假设是,内生解释变量与工具变量不相关。 你的F值远远大于临界值,所以可以说在一定程度上,模型不存在弱工具变量问题。
A: 冲击反应函数中,研究x对y的影响,是指x受到一个单位标准差的冲击对y造成的影响,详细的分析,也可参见推文
A: 我觉得可以,但是怎么感觉你做稳健性检验搬了个坦克,你的主部呢,只是开了个小轿车是不是后面我给你检验用的武器太重型了?要是我做的话,我可能直接一上来就做一个门槛模型。好像文献里有你这种做法,应该是可以的,因为它俩本质上就在干相似的事情。
A: 从检验的角度来讲确实会出现这种情况。考虑了各种情形,确实就是这样,我觉得我会留出第2个门槛,第1个门槛我就不要了,就把这个模型就化成一个单一门槛模型。那我所谓的考虑各种情形就是如下的几种状况:
第1,我明天上午还会讲,算门槛值时,要求每个期间有足够多的观察值,假设是算单一门槛模型,就分成两个区间,要求门槛值左侧和右侧观察值的数量不小于100个。这种就可以保证你不会去找出那些特别极端的门槛值,因为那样的话,即使检验通过,它在经济上的含义呢,也会受到质疑。就像探讨高超过1米93的人,他的收入跟我们一般的人有什么差别,如果是从篮球运动员的角度去探讨没有问题,但是对于普通大众,1000个里面没有几个超过1米93,没有普遍意义。 第2,在正式搜索门槛之前,离群值可能对你的结果仍然有很大的影响,所以你需要把模型里边的被解释变量,控制变量,尤其是你的门槛变量,可能存在的离群值要预先把它处理掉,比如通过缩尾处理。
A: 对,我觉得只能通过门槛理论分析来确定,当然有可能是前期理论分析,你认为四五个变量都可能影响这个Y和X的关系,就是有一些备选的门槛变量,你可以在初步研究的过程中,把这5个变量全都测一遍,看哪一个变量统计上有更为显著的门槛效应,它的结果在逻辑上更容易解释,再把它留下来,这跟警察排除嫌疑人是一个道理,通常都是大胆假设,小心求证。
A: 工具变量的个数、具体滞后期数,可以看「过度识别检验」和「现有文献」做法。GMM可以参见推文
A: 这个等我明天上午讲吧,我们会去搜,按逻辑,如果搜了一个门槛,发现它统计上显著,先把这个门槛固定住,再去搜第2个门槛,以此类推。有可能搜出10个门槛,但实际应用中,文章一般都是单门槛模型或者是双重门槛模型,如果门槛超过三个以上,样本就会被划分成4个区间,分析起来就非常非常困难。
A: 同Q10
A: 2SLS 和 GMM 都假设工具变量是外生变量,即与扰动项无关,但是 GMM 对工具变量的外生性容忍度更高一些,实际情况中,往往无法满足SMC=0,详细参见高级班第一个视频回放2:10分的位置,“连玉君-幻灯片-动态面板-批注板书-2021.1.29”第15页。
A: 好问题,确实是gamma。
A: 严格按照注释的说明,是设成0.6,这里是生成数据用的,gamma的数值可以自己定义。
A: 同Q16。面板PVAR前,需要做平稳性检验。如果变量不平稳,就需要跑到协整那一类模型去做。
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟,课程主页 Stata 33 讲 - 连玉君, 每讲 15 分钟. Stata 小白的取经之路 - 龙志能,时长:2 小时,课程主页 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 因果推断, 空间计量,寒暑假班等 | |
⭕ 数据清洗系列 | 游万海 | 直播, 88 元,已上线 |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh