FAQs答疑-2021寒假-Stata高级班-Day3-连玉君-RDD-合成控制法

发布时间:2021-01-31 阅读 1043

连享会·课程答疑


Stata 高级班-Day3,任课老师:连玉君

Update: 2021/1/31 19:00

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course


目录


Q1. 专利数据的 ordered Logit 模型

被解释变量为专利数,如果使用ordered logit回归,专利数量是不是需要被划分为若干个区间,比如无专利,较少专利,较多专利,很多专利,然后才能做回归?使用专利数直接用ols有什么弊端?

A: 这个有两种处理方式了,一种是用技术模型,比如说柏松回归,负2项回归。前期连享会也有发布过这方面的推文。我上课讲的 Long(2001)的那本书里有一个章节专门介绍计数模型,里面还有 Stata 的一些范例,可以参考一下。 另一个方法就是你提的这个,把数据分成几个区间,这时候就可以用有序 Logit 来做。 其实也有些文章用OLS做的,他们就把专利的数据加个 1 再取自然对数作为被解释变量。局限就是如果去看刚才的有序 logit 模型或者是技术模型的文章,他们都会探讨做线性回归跟用这类的模型之间的区别。做简单的线性回归,一个最大的问题就是假设干扰项是一个正态分布,除非是样本数特别大,这个假设就容易满足,但是样本数特别少的时候,而且你的专利数据里面取 0 和取 1 这种低值发生的频率特别高的时候,OLS估计就会产生一些偏误,尤其是在算标准误的时候,算的不准。再有就是采用 logit 模型或者是技术模型系数的解释是这种边际的非效应的关系,可以解释的更加丰富一些。

Q2. 动态面板模型和面板门槛模型如何选择?

连老师好:您这两天讲了动态面板模型,面板门槛模型,还有tobit模型等等,这些都是建立在数据可能存在的特征进行选择的,那我们在拿到数据后应该怎么判断选择合适的模型进行分析?不知老师是否可以分享一下您分析数据的思考过程,以及如何最终决定选择哪种合适的模型来分析。比如把专利作为因变量,它可能受到前一期的影响(可以选择动态面板分析),它也可能受到一个门槛值的影响(可以用面板门槛模型分析),同时,企业选择是否创新本身可能也存在自选择问题(涉及是否需要heckman检验),另外获得的专利数据可能存在零膨胀问题(我们可能又需要使用其他模型来分析),或者以上都不考虑,直接用最严格的固定效应跑一个回归(xtreg, fe),不知老师您这个过程一般是如何分析呢?

A: 通常如果是按照计量经济学家的方式去做实证分析的论文,基本上是没有办法实施你的工作的。因为好多计量经济学家,我感觉对于这种实证,他是有洁癖的,他们做的理论模型通常都是在一些非常严格非常理想化的假设下去做的,但是我们做实证的时候经常往往难以满足这些假设。回到你刚才说那个问题,我一般不会一开始把这个问题想得这么复杂,我们是先有一个主题,我确定主结果都比较不错的情况下,我再去考虑内生性、稳健型检验这部分。所以我不会把你刚才列的那些东西全做一遍,我会挑其中的几个比较关键的,把文章的重心仍然是放在讲故事做主结果的那一部分。那当然,有可能你有一篇文章重点是在卖你的方法,例如用到一个动态的面板门限模型,想要去估计汇率或者资本结构的非对称调整,上下各自有一个不一样的调整速度。那这时候也是以其中的一个方法为核心展开你整个论述的。 另外要补充的一件事就是文献,现有文献做到什么程度,就决定你下一步大概要做到什么程度,沿着某个方向要走。

Q3. 面板门槛模型结果中的门槛值选择问题

面板门槛模型 Section 2.4,第792行和793行的结果如果不一致,应该选择哪个值作为最终的结果,实际操作中确实出现过上述情况,谢谢老师。

A: 前二那一行是我把我的数据先当成只有一个门槛的情形去估计的。这时候估值通常是不准的,在这个例子里看到的,去搜双重门槛搜到的结果是一样,是因为模拟的时候产生数据特别理想化。最终这个结果要结合做门槛检验的结果一起看。在我们这个例子里面门槛检验确定的是一个双重门槛模型,所以你事后就是看这里边的th-21和th-22就可以了,前面在单一门槛情形下搜出来的那个门槛值就没有什么参考意义了。

Q4. 处理效应模型的选择方程和结果方程的含义问题

讲义B3b_Treat中,第650和651不太理解,麻烦老师帮忙解释一下

A:

Q5. 处理效应模型和 Heckman 选择模型的关系和区别

(1)能否简单讲一下处理效应模型,处理效应模型与Heckman选择模型的关系?处理效应模型与 RDD、DID 的区别又在哪里呢?(2)讲义B3b第655-665跟heckman model的区别不太理解

A:

Q6 Heckman估计结果里面mills,athrho,lnsigma之间有什么关系,回归结果需要报告出来吗

A: athrho 这个纯粹是出于编程的需要,因为 rho 是一个相关系数,它本身的取值介于 -1 到 +1 之间,写程序的时候,如果不做任何限制,那些所有的参数的取值都应该是在负无穷到正无穷之间,都可以随意取值的。所以就需要做一个转换,转换完以后,让这个参数刚好介于0和1之间,然后估完以后,再把它返回去就行了。至于你在家里面洗一些比较不太耐造的衣服的时候,你要用一个洗衣袋把它包住,洗完以后你再把它拆开一样的道理,所以你做的时候不用管 lnsigma,实际上就是估模型里的干扰项的方差的那个参数,也是因为 sigma 本身是大于 0 的,所以要先去取一个对数去估它,估完以后呢再去算一个这个:σ=exp(ln(sigma))

Q7. 二次调节变量和分组回归问题

请教一个问题:解释变量x,调节变量m,二次调节变量c;如果分组检验在不同水平c的情况下,调节变量m的调节效应;如reg y x m xm if c==1和reg y x m xm if c==0;此时,如果检验c的调节效应能不能做chow检验,通过检验x*m的系数是否存在显著差异来判断c的调节效应?如果不能的话,应该怎么做呢?

A: 可参考以下推文:

Q8. 同一个解释变量,不同被解释变量的系数如何比较?

如何比较同一解释变量x,对不同被解释变量(y1和y2)的作用效果?是否可以直接通过系数的大小进行比较(假设x对y1回归系数,x对y2的回归系数均显著时)?例如y1代表实质性创新,y2代表策略性创新,x代表均能对y1和y2产生影响作用的某一因素。谢谢!

A: 我不太清楚这个Y1和Y2衡量的时候量纲是否一样。如果这里提到了实质性创新,还有策略性创新,都是采用公司的新产品产量来衡量的,我觉得你可以直接用系数去比较,但是那个跟样本数又有关系,所以一个比较保守的做法可能就是做标准化的系数。那时候得到的系数就没有量高了,是说X变动一个标准差,Y变动多少个标准差,以这个东西为基础,你还可以进一步的在采用BS或者是似无相关估计去做组间系数的差异检验。

参见:

Q9. 模糊断点回归如何理解?

(1)老师可以简单讲一下模糊断点吗?(2)fuzzy RDD和sharp RDD的最主要区别是什么呢?(3)讲义B4_RDD第1131行中的5个估计结果主要区别是什么(4)门槛模型中有多个自变量是门槛变量该怎么处理?

A: 清晰断点就是我今天讲的这种内容,比如说高考的那个例子,643分的录取分数线是非常明确的定在那儿的,没有任何人可以通过任何手段去改变它,这时候超过643分的人就被非常清晰的界定为实验组的对象。而低于643分的就是我们的控制组。模糊断点就是在有些政策实施的时候,一部分人可以通过一些手段来操控,让他自己本来是控制组的,它就会跳到了这个实验组里面去,比如说我通过开一个医学的证明,让自己在58岁的时候提前退休。那就会导致你真正看到的那个实验组里,58岁的那个人他已经在退休那一组里面,但是它本身可能是应该属于控制组的。 那我们的做法就是找到一个虚拟变量,这个虚拟变量就是现实,你看到的这个人到底是在实验组还是控制组,如果在实验组就取一,否则的话就取零。接下来用这个虚拟变量跟一堆可能影响这个人到底是否退休的指标,去做一个回归。以这个 logit 回归为基础,我们就可以算出这个人退休的可能性,也就是一个概率值。第2阶段的回归里,就跟我们平时做的断点回归是一模一样的,只不过把清晰断点里边的虚拟变量换成刚才第一步里得到的概率值。讲义里面有一个例子啊,可以看一下。

Q10. DID 模型中的系数差异检验问题

(1)请问did模型中做组间系数差异是将dummy 乘以treat*post选项吗?(2)did模型中的中介效应应该怎么做

A:

Q11. 政策实施又废止背景下的倍分法-DID

请问在做政策效应的时候,现有政策实施和废除两个阶段的面板数据,政策实施年份有受政策影响的实验组和不受政策影响的对照组,为虚拟变量,比如是否为制造业。我想分析政策废除前后,实验组与对照组相比所产生的差异,看该政策废除后的效果(即制造业在受到政策影响和不受政策影响,与非制造业相比,会有什么变化),这种情况传统DID就不适用了(因为实施阶段没有平行趋势,废止后可能有平行趋势),这种从有到无的政策可以如何分析呢?(根据上午介绍的断点模型,情境很像,但我研究的实验组和对照组没有具体的带宽值,不知该如何分析。)

A: 这个我看了半天还真没看明白这个问题。之前陈强老师有写过一个推文其中一类DID是这种渐进的,我们没有明确的一个虚拟变量来确定这个政策前后的,但是有一个反应政策力度的变量,就好像你给人吃药,有的人你给他吃半片,有的人吃一片还有人吃5片,我们有一个这样的连续的变量,这种情况下,根据这个白聚山老师他们那个模型仍然可以估计出一个政策效果。 陈强老师推文: 开学礼包:如何使用双重差分法的交叉项(迄今最全攻略)

助教提供思路如下:

  • 如果考虑的是整个制造业的话,那么找哪个行业作为对照组,这是一个问题,如果敢尝试的话,可以找一下国外制造业实施了类似政策的,然后用一个DDD来做一下?
  • 可以先试着看看有没有平行趋势,实在不行可以看看增加一些控制变量使得加入控制变量后平行趋势满足,当然最优情况是不加控制变量,断点肯定是不太行的。  

Q12. 如何分析 1997 年的某项政策在 2015 年的政策效果?

例如,1997年初中升高中体育考试的政策实施后,全国31省学生的平均心肺耐力水平的下降率逐年降低,直至2005年出现心肺耐力上升的拐点,想做出1997政策对这个拐点产生的作用力,或者说判断拐点产生的主要原因是否是97年的政策,还是说是和经济规律的联合效应,请教连老师用什么方法可以做出比较干净的政策效应?

A: 我一下也想不出来有什么好的办法,主要的一个难点就在于你那政策是97年实施的,你要判断的效果是隔了8年以后2005年的。所以你在文章里面可能要花比较多的时间去看一看,97年到2005年之间,除了刚才提到的这个政策以外,还有没有别的政策在这个期间里面发布。如果在整个这个时间段里面除了你提到的97年的政策以外,没有任何其他的干预的政策,那你要分离的就只是97年这个政策产生的效果和97年到2005年之间心肺耐力的自然变动。如果是这样的话,就只需要在模型里边进一步的加入一个时间趋势项,如果你觉得整个的心肺耐力的变动不是一个简单的线性变动,自然增长或者下降,可能有非线性的关系在里边,你可以进一步的加入时间趋势上的平方向。甚至像我们今天断点回归那个模型那样的就加入省份的个体效应和时间趋势上的交叉项,把这个自然变动的部分控制住。反映政策的那个虚拟变量了,就可以反映你的政策效果。 反之如果在这个期间里边还有一些其他的政策,这问题就相对来讲比较棘手了。好像现在也有一些多次干预的方法,你要去找一找,我还没有仔细的去看这方面的文献,我听我同事杨海生老师说有。

Q13. 断点回归分析是否适用于面板数据?如何做?

连老师,您上课举的“一分之差,就读岭南学院的收入效应如何估算?”的例子中,以2016年最低分为例,结果伽马是0.963(B4_RDD.do,718行,不知理解的是否正确)。这个结果只是2016的结果,其实岭南学院的院长,可能想通过2015年、2014年三年的一分之差,三个结果进行说明就读岭南学院的教育效果。如果是三年一分之差的结果,在B4_RDD.do,735行的数据,是否就为面板数据,而非截面数据?或者换一种方法,能否用2015年和2014年一分之差的进行安慰剂检验以作证2016年的643分的一分只差结果?谢谢

A: 如果我拿多年的数据也仍然可以估。对于每一届的学生,我都用他的高考分数减掉他当年入学的时候那个录取分数线。这样的那个xc其实各个年度之间是可以比较的,不管是2005年入学还是2015年入学,反正你都是比录取分数线高一分进来的,那么你都是在我们那个断点右侧一点点。这种情况下如果做安慰剂检验,我估计不太会用15年14年的这些数去做,我可能会把这个断点放到别的地方,就类似于户口那篇文章,我会放在630分或者是670分,离开643分这个明确的政策断点,去估一下那个模型,看跳跃的那部分在统计上显著不显著。验证643分这个明确的断点附近的那个跳跃是不是真的因为进入岭院导致的。

Q14. RDD-用截面数据能否分析某项政策对健康的影响?

老师今天说做局部线性回归的惯用模型时候说data可以截面即可。如果想评估某一政策的效果是提高了人群的健康状况,可否只用某一年的数据来进行分析呢?还是两年三年截面数据整合成panel才可以呢?谢谢!

A: 我觉得可以,因为有很多政策假设,你能够找到他对某一类的人群影响比较大,对另外一类的人群影响比较小,那你仍然可以识别这个政策的效果。比如说,我对于家庭年均收入不超过3万的这些家庭,额外的给他每个月600块钱的牛奶和买肉的补贴。刚才说这个3万的收入,就可以看成一个断点,这是政府人为规定的,政策一出台核算完以后超过这个限额了就变成control组,而在3万以下的这些人呢就变成实验组,那我就可以用断点回归分析来判断这两个组里,健康状况是否有差别。

Q15. 加入连续变量和虚拟变量的交乘项后,主效应不再显著怎么办?

连老师,请问虚拟变量与一个连续变量得到的交乘项加入模型中,使得主变量(虚拟变量)不显著,这个时候我是否可以将交乘项进行去中处理?

A:

Q16. 如何进行城市层面的合成控制法分析?

连老师,我的被解释变量是某个城市上市公司的abnormal returns,我想用合成控制法配这个模拟合成控制城市,可以用什么变量来配呢,有哪些文献推荐吗?

A: 我没见过这方面的文献,所以也没法提供一个文献给你。思路上来讲,你可能得找一些区域经济学的文章,他们在城市层面上进行研究。这层面无非就是人口密度、产业结构人均GDP增长率。或者在进一步的加上交通便利性,比如说公路、铁路的里程。这个其实你自己主观的去分析的余地还是挺大的。

Q17. 用qfit做出的非线性拟合图和magin做出的边际效应图有什么区别?

A: 两者间存在很大差别,用qfit做出来的非线性拟合图,目的在于观测被解释变量的拟合值的。在这种情况下,拟合的变量不光包含解释变量的一阶项,还会包含解释变量的平方项,甚至是三次项。但是用margins做图,目的在于观测某个解释变量,对被解释变量的边际影响,即 dy/dx 。具体可以查看命令的帮助PDF手册。

Q18. 连老师,请问treatreg可以用heckman做吗?

A: - Heckman模型: 你用对了吗?

Q19. 请问ols,heck2s和heckmle的区别是什么?

A: heckman选择模型主要就是为了应对你被解释变量有一部分缺失没有办法观测到,即解决样本自选择偏误问题。就像我昨天举那个例子中,要研究妇女的工资的决定因素,只能观察到1000个妇女里边的700人,剩下的300人因为没有进入劳动力市场,所以他们的工资数据是缺失的,但是这300个没有进入劳动力市场的妇女并不是随机的不去进入市场,而是他们有自己的原因,有可能是家庭收入比较高,有可能是这些妇女技能或者教育水平比较低,市场上没有人要,市场所提供的最高工资远远低于他自己的保留工资。

这种情况下,heckman选择模型和直接做一个简单的线性回归模型的区别就很清楚了,直接做一个线性回归模型没有考虑因为自选择导致的内生性的问题。heckman两步法和Heckman mle,只是估计方法上的差别。从理论上最严谨的方式就是用mle去估计,因为可以写出两个方程的联合的正态分布的密度函数。但是文献里面其实用两步法还反而更多一些,因为实操上比较简单,而且一定能够出结果,而采用极大似然估计的时候,有时候参数呢是没有办法估计出来的,那heckman自己也做过一些证明啊,他认为这两个方案是等价的,不过我自己做模拟的时候,我发现有时候这两个结果是差别特别大。我找文献也没有一个明确的模拟分析的文献来去确认哪一个在什么条件下更好,这个也是我的一个疑惑。

Q20. heckman估计中的select变量怎么选择,需要把所有的解释变量都放进去吗?

A: 选择方程是来确定哪些妇女没有进入劳动力市场,也就相当于找一些变量帮我来解释妇女进入劳动力市场这个选择行为的。可以想象到的变量就包括教育水平、年龄、子女的个数还有家庭收入等。

  • 结果方程比如说我要研究的是妇女的工资水平受什么因素的影响,这里边就根据传统的劳动经济学来看,应该包括这个妇女的教育水平,年龄。但是可能就不再包括这个妇女的子女的个数和她的家庭收入,因为雇主不可能因为你孩子多或者家庭收入低,我额外的给你更多的薪水,在上述例子中,选择方程里面你会放入4个变量:教育水平、年龄、子女个数和家庭收入;但在结果方程里边,你只需要放入教育水平和年龄这两个边上就够了。这带来了一个好处,两个方程里边包含了两个不一样的变量,一个是子女个数,另外一个是家庭收入,通常我们认为这种设定会更好一些,因为它有助于识别两个模型里边的参数。
  • 还有一些情形,其实你没有办法找出一个变量,让它只出现在选择方程而不出现的结果方程里。所以你去看文献的时候,你会发现很多文章里边,他就同时把结果方程里边的解释变量放在选择方程里面,也就是说两个方程里边出现的变量是完全一样的,这个其实也没有问题,不会什么导致什么共线性的问题,因为heckman的模型估计的时候本质上是一个非线性的过程,的是profit方法。

Q21. 如果退休年龄可以选择,比如女性可以选55或60退休,那么会对RDD的研究假设造成影响吗?

A: 可以观察数据中有多少妇女有这种选择的权利,如果有1万个妇女只有其中的不到1%有这种选择的权利。那么不会对结果造成实质性的影响,就我目前了解的状况来看,多数岗位上的女性实际上是没有权利选择自己到60岁才退休的,除了高校的这些老师以外,包括公务员呀,小学初中的这些老师,其实他们都是在55岁就退休了。所以可以在文章中,把有选择权利的那些样本组拿掉,剩下的样本重新做一次,看一看结果是不是稳健。

Q22. 断点回归如何在面板数据环境中应用?需要分年度吗,可否举一个例子?

A: 按照断点回归设计的思路,非必要情况下可以不用面板数据模型去做。用面板数据模型主要的一个好处是可以控制那些不随时间变化、又很难去测量的个体效应,比如说人的消费习惯,比如说国家层面的文化、宗教信仰一类的东西。可是在断点回归中,只要找到断点,找到一个驱动变量,而且能够论证断点没有经过人为的操控。他就已经像是一个自然实验了。如果能够选择一个比较合适的带宽,在一个很窄的区间里面去估计这个东西就可以了。

Q23. 一个政策分别在 1997,2007和2017年陆续执行,如何分析其效果?

1990-2021期间有关于提高学生身体素质的学校层面的落地政策,分别是1997年,2007年及2017年颁布的政策,全国31个省同时执行。三个政策一直没有中断,即1997-2007年实施1997年颁布的政策, 2007—2017实施1997年和2007年的政策,2017-2021三个政策都在执行,请教连老师,用什么方法可以做出比较干净的单个政策的政策效应?

A: 只能去从两个角度去看:

  • 一是看三次政策内容上有没有差别,比如说97年实施的那个政策要求中学生毕业的时候,男生要能做30个引体向上。第二次的政策中,将标准降成了20个。就可以通过这个政策差别来识别放松标准以后学生体质的变化。 另外就是从横截面上去看,全国有31个省份。这些政策实施的过程中,有些省份执行的较为严格,比如说北上广深这些大城市,教育的质量或者说教育部的监督相对来讲比较严格。再以初中生毕业的时候做三个30个引体向上为例,该省份严格按照这个标准来执行。稍微偏远一点的省份,比如说像青海宁夏甘肃,政策在执行的时候就没有那么严格,可以透过截面上政策执行力度的差别,对样本进行分组来识别它的效果。理论上预期北上广深政策实行以后,学生的体质的提高要高于甘肃,青海宁夏这三个地方。当然我只是举个例子,我猜可能甘肃青海宁夏这三个地方的学生的体质要比北上广深的要好多了,因为他们不需要花那么多的时间天天在教室里做题。

Q24. 合成控制法在公司金融中有应用吗?

请问老师,合成控制法在公司金融领域用的多吗?有具体可以参考的文献吗?公司金融领域看政策效果是一般did分析吗?截面数据可以使用控制合成法吗?

A: 合成控制法在各个领域里用的都不是特别多,不像did用的那么多,因为它适用的场景比较窄。但是好处就在于说合成控制法能解决的问题,别的方法未必能解决,因为只有一个实验对象。至于文献,推荐微软学术,Finance, corporate之类搜索关键词就应该可以找得到,或者在搜索引擎中搜索Abadie 2010, 2015的这几篇研究合成控制法最重要的文献,看施引文献,里边有一些涉及到金融领域的,你拿来看一看他们都做了些什么事儿。

Q25. 合成控制法中控制组的权重如何确定?

老师您好,合成控制法权重是如何确定的不是很理解,您上课时说联合求解的意思是求解所有年份的n元n次方程吗组吗?

A: 简单来讲,从1970年到1988年一共有19年的数据,一个求解的过程是要求在任何一个年份上加州的香烟消费量等于控制组那些州的加权平均。这相当于联合求解,19个方程中都含着一组权重,因为不允许权重在各个年份上发生变动。最终就变成了两个向量,左边是加州,从1970年到1988年的每一年的相应消费量构成了加权的一个列向量,要是再加上vit的那个数据生成过程里边,既包含X×beta又包含一些因子,就会右边是一个矩阵,相当于一个向量跟一个矩阵之间的距离,这就涉及到矩阵的距离,怎么定义的问题,可以用到欧氏距离等等。

参见:

Q26. 可以将投资行为分为投资水平、投资效率和风险承担这三方面分别进行实证分析吗?

老师您好,我目前正在研究公司投资行为(y),结合以往文献我想将投资行为分为投资水平、投资效率和风险承担这三方面分别进行实证分析,不知这样分类是否合理,如果不合理您建议该如何分类?

A: 按照一般的文章来看,不会把投资水平,投资效率,风险承担丢在一篇文章中同时去研究,我会做成三篇文章。我们做文章的一个原则就是一篇文章解决一个问题。单单是风险承担这个变量,文献中就有七八种衡量方法,已经很复杂了。

Q27. 合成控制法中变量的选取问题?

(1)合成控制法下禁烟法案的案例中,在政策发生前,为什么要用收入等变量的均值回归而不用每一年实际值去回归呢?这样解释变量就是几个常数,怎么产生变动来解释拟合变动的香烟消费量呢?用收入等变量的均值的话,就算加上三个特殊年份的香烟消费量作为解释变量,来拟合加州的时候,加州每年的香烟消费量在变,而收入等变量每年都是均值所以不变,那不就是用香烟消费量本身来解释拟合自己吗?如果这样,那直接找一年或者其他变量充当均值,用香烟消费量自己加权去拟合自己就好了,这样做可以吗?(2)老师在讲合成控制法的时候提到,选用不同的香烟销售量的滞后项,对拟合最终的结果影响很大,可能只有作者最终选择的那几个滞后项才有比较理想的结果。类似的,我想会不会选择不同的Control variable也会影响最终结果。。。这是不是说明model specification是个很tricky的过程呢?需要不断尝试不同变量、不同变量形式,以期望“碰到”好结果。请问连老师怎么看这个问题呢?

A: 这个事儿要两面来看。 做模型设定的目标是希望在政策之前的时段能够很好的拟合加州每年的相应消费量的变动,以这个为基础,才能够确定到Donor Pool 那些州的权重。所以作者放了加州的滞后的香烟消费量作为解释变量,我认为这个也无可厚非。文献中对这个问题的讨论呢,大家就集中在会不会出现样本内过拟合的问题。换句话讲,我们实际的政策是发生在1989年,假设我在做分析的时候,我假装把这个政策发生的时间是在1986年去做一次,估计只是说是可以得到一些权重的吧,接下来利用这些权重去预测,1987、1988和1989三年的加州的襄阳消费量,在这个时段里边加州还没有实施那个政策,如果前面在86年之前做的这一部分估计是没有问题也不存在过拟合的话,那么你在87-89这三年中得到的实际的加州的香烟消费量和合成加州香烟消费量的差值应该是非常接近于0的。反之就代表可能存在过拟合的问题。对这些问题作者在后续的研究中,会采用去心法、交叉验证等去克服这个问题。这时如果发现了过拟合的证据,可能就需要再重新去修改前面加入的那些变量,像你提到的不用全样本的人均GDP,也不用70~88的年龄结构的平均值作为解释变量,拆出几个不同的时间段也是可以的。

Q28. 自科面上项目和青年项目申请时有什么区别?

A:

  • 从评审专家的角度来讲可能没什么区别,反正拿到的都是一堆本子。
  • 从基金委的规定来看,似乎不是特别注意你前期的研究成果,因为有很多申请青年项目的老师是刚从国外毕业回国的青年教师,而国外的很多高校其实不要求博士生在博士期间有正式的论文发表。相反做面上项目申请的时候,你PK的对象,都是已经工作多年的有经验的老师,他们已经很好的成果。即使评审专家不去特别的关注这,如果成果太弱的话估计也不行。所以,两相对比下来,你申请面上项目对于你团队成员的构成,还有你前期相关的研究成果的铺垫,可能会对最终的申请结果有比较大的影响。
  • 换一个角度想,不管申请自科的青年项目也好还是面上项目也好,都是相对的问题,因为每年资助的资金有限、各个领域也有所差别,但大概就在20~25%这个样子,也就是5个项目会资助一个,到底资助谁还是看你的对手的强弱。

Q29. 合成控制法的模型推导问题

两个公式:

其中,G=Gapp=post.

Gap post等式的右边,我试着拆开还原写了,最后写成了

也就是说,

但是,GAP 不是就是等于 y1Tty1Nt 吗?是我写错了吗?可不可以解释一下Gap post这个式子?

A: 我没有完全看明白您说的拆开还原写是什么意思,我来说一下关于 Gap1tpost 的含义。根据 Rubin 因果推断模型,理论上如果合成处理组能够很好地实现对于“反事实”处理组的外推预测的话,那么 Gap1tpost=α1t,即干预后的政策效果估计值是无偏估计值。 但是实际中,由于存在噪音干预的影响,因此我们实际政策效果的估计结果应该是

后面的

就是估计的噪音项。 如果您的问题是为什么干预后时期会多出一个 α1t 的话,那么这个问题是这样的,本质上来说,潜在控制组应该也有一个类似的政策效果 αjt,但是 Abadie et al. (2010) 假设潜在控制组不存在类似的政策干预,所以 αjt=0。 (==回答:助教李鑫==)

Q30. 关于RDD 515行提出的问题,答案是不是全样本不适合使用线性回归

A: 针对全样本的回归会出现这样的问题。真正的效果和全样本OLS见图中笔记,导致可能高估(如图的情况);也有些情况会低估,这里本身没有考虑非线性的关系,导致估出来的效果有偏。

Q31. 能否用 DID 替代加州禁烟案例中的合成控制法?

在 Abadie et al 2010中,可不可以加上其他11个有禁烟政策州,用多期DID估计政策影响 (假设parallel trend assumption成立)

A: 可以,但是你研究的问题就已经发生变化了。就相当于在检验禁烟政策的平均效果,而我们那篇文章要检验的是回答加州政府关心的问题,就是在加州率先实施了一个经验政策,到底单独产生了多大的影响,限定在本州的范围内。

Q32. RDD讲义中723行命令前面已经用if命令限定了带宽,为什么还要用h()来限定带宽?

A: 你说的没错,应该是不用限定了,回去可以试一下,去掉这个选项看看结果有没有什么差别,应该是没有差别的。

rdplot y1 xc if (xc>=-$h)&(xc<=$h), h($h $h) p(1) //局部呈现

Q33. CEO 任职次数数据的衡量偏误问题

关于样本可能存在自选择时的稳健性检验方法。数据类型为面板数据(使用FE),结果变量没有缺失值(公司层面的一个连续变量),自变量是CEO在特定类型企业的任职次数(0,1,2,3....),问题是部分企业CEO简历信息披露特别精简,导致部分CEO的任职次数被低估(e.g. 本来可能为2,但是由于简历信息太精简,导致被编码为0)。这种类型的问题应该如何处理?(自己用xtheckmanfe没有跑明白)

A: 这个我也没办法,因为你不知道我也不知道对吧,谁也不知道到底被低估了多少。有一种方法是干脆把任职次数的变量再进一步压缩一下。具体的做法是,假设认知次数的变量里,零的取值的比例还是比较可观的,比如说占到30%以上。那我就可以基于目前任职次数这个变量,定义出一个虚拟变量,就是0和1。如果在其他的特定类型的企业里面有任职,我不管多少次,都取值为1,否则的话就取值为0。最终就把问题转化成在外部的特定企业是否任职,对于被解释变量的影响。因为已经做了降维了,你刚才提到的这个低估的问题就不存在了,或是大量缓解(因为仍然可能出现有一些人在外面任职了一次),但是他没有登记这里面就把它归到0。但相对于你原始提到那个问题,这样的已经改善了很多了,你可以把我刚才提到的这个方案作为稳定性检验的一部分。

这个其实是银行里边做风险管理,还有做信贷违约审核预测的时候,经常用到的一种方法。因为他们收集到的这些问卷,或者是客户填的数据,经常有的时候是夸张,有的时候是低估,所以他就把这些连续的或者说是有多个取值的分类变量就直接转化成0 1变量去做处理,就定性的来看。

Q34. 可否用 PSM 克服研究效率研究中的样本选择偏误问题?

连老师,您好!我的研究主题是“政府研发资助”与“企业研发效率” 数据集:一个省份两年的全部高新技术企业数据。 背景:20%的企业的“科技活动经费来自政府资金”这一指标(“政府研发资助”的代理变量)存在数值,剩下的为0,即没有获得资助(基本可以排除获得资助但没有填的问题)。 研究方法:传统上,用的是省级数据,固定效应面板模型、面板SFA模型。 但我认为在用企业级数据时存在 选择偏误 ,即获得政府资助(D=1)和没获得政府资助(D=0)不是政府随机选择的。受到(企业规模、企业创新投入、企业产出水平、是否进行产学研合作、是否上市 等等)众多因素的影响。

  • 问题1:我想用PSM方法算一下 政府研发资助 对 企业研发效率 的因果效应。这样可行吗?
  • 问题2:PSM对样本数量的最低要求是多少?(1500够不够?) 谢谢连老师!!

A: 用psm是可以的,算是一种缓解这种场景下问题的办法。还有一个办法就是采用处理效应模型。因为这里边01的选择并不是政府随机划分的,而是有一个企业自主选择的。 PSM对于样本量倒没有什么特别的要求,但是它有两个假设必须得满足,一个是共同支撑,就是你实验组里边算出来的那些ps值即倾向得分值,比如说取值期间是从0.3~0.9。要求你的控制组里面算出来的ps值的取值范围,至少应该比刚才这个0.3~0.9的范围要大。这样才可以从控制组里边选出来一些跟实验组里边相近的。假设你控制组里边ps值的取值范围是0.3~0.5,就会导致实验组里边ps值取值在0.5~0.9的这些公司,事实上是没有办法找到一个合适的配置对象的。

如果满足上面那个要求,1500个观察值应该是够了。

Q35. 合成控制法中,权重是怎样计算出来的?

合成控制法中,权重是怎样计算出来的?算出权重后,是不是每年用权重只合成了一个反事实样本?这样的话是不是可以认为这这个方法的思路并不是我们以前的那种多样本回归的方式,而只是单纯的1:1配对的方式来得出结果,因而后面的安慰剂检验才需要用其余38个州来构造经验样本来进行统计检验?

A: 本问题的回答可参照前面的类似问题。

Q36. rdrobust 命令和 regress 命令的区别是什么?

用rdrobust 和regression回归是一样的吗,这两个命令的适用性有什么区别?还有rdrobust命令如何体现cutpoint两侧斜率的不同呢?

A: Rd robust和regression这两个回归本质上实际上是一样的,我上课讲的时候都直接用OLS进行回归,我用的都是 reg 那个命令。

但是rdrobust的这个命令呢,也帮你做了一些rag命令没有做的事情,就包括它在内部会自动的帮你选一个自由的带宽。所以很多时候我们会先做一个rdrobust,选出一个带宽来,再自己去写ols回归的命令。就知道我要控制哪些控制变量,还有里边要放哪些交乘项等等。

户口那篇文章,可以把他的 dofile 完整的拉一遍,他那个文章里边就刚好能很好地回应你刚才提到的这个问题。

Q37. 老师您在学术研究初期是如何确定自己的研究方向呢?比如选题设计方面有什么建议吗?

A: 我没资格给你提特别好的建议,因为我也没有特别好的研究方向,事后想起来当时就是研究生二年级开始转博士,然后博士的一年级老师就不让写论文,天天做基础的训练,做习题看书等到。等到博二的时候开始去做论文,实际上就有很大的偶然性,当时学了面板门限模型就想着去用一下,最后就在网上找一找这些主题,跑到公司金融这个方向,当时的一个考虑就是得有数据才能做,其他的领域数据还真不是很容易获取,像做区域经济学,我就觉得数据量太少,没什么太多好折腾的。我本身莽莽撞撞地就这么选下来了,这个时候如果再看的话,我当时应该多找一些老师去咨询他一下,多看一些文献,把各个地方都逛一逛,然后再来做一个决定。我也没什么好后悔的吧,就是你整个人生的路也不可能是每次都走对,就好像你买股票的时候,也不可能每次都是最低的点进去最高点出来,大概率的差不多就行了。

沿着这个方向,一旦选定题目以后,你至少应该去搜一下最近发表的一些文章,如果有很多大牛都还在这个主题上在做一些工作,论文一直在投,那至少这个方向做三五年没问题,你不相信自己的判断,那些经常在AER等发表文章的那些教授们的判断应该还不会出现太大的偏差吧。另外一个,我觉得可能还是要稍微遵从一下你自己的兴趣。你读那些文献的时候,你根本自己都没有办法让自己提起兴趣,比如说晚上你就想着看会儿韩剧听会儿歌,可能那个话题你本身不是特别感兴趣。像我昨天晚上回家,陪小孩玩了一会,他们都在干别的事,两个小孩在那打闹,我又跑到书房里边,在那推那个Heckman选择模型后面那部分,我觉得特别high啊,我在纸上一页一页这样推过去。你就是对他有兴趣,所以本来就是一个职业,你除了谋生以外可能还要从中间获得一点兴趣,这才不算太亏啊。否则的话,光赚那些钱也挺没劲的是吧?

Q38. 理论分析基于企业层面,但实证时使用城市层面的数据是否可行?

请教连老师一个数据使用的问题。我的研究方向是企业创新管理,我发现有的期刊和硕士论文(比如科研管理,中国软科学,一些双一流高校的硕士论文),在理论构建的时候从企业的角度去论述的,但是使用的数据是行业层面的数据,比如《中国工业统计年鉴》、《工业企业科技统计年鉴》,论文中也没有提及为什么选择该数据资料,这样是不是存在论文前后不匹配的问题?发邮件给作者询问也没有得到回复。如果确实拿不到企业层面的数据,这样的操作是否合理?

A: 我不建议你看那么多硕士论文,也不是说硕士,有的硕士没有做研究的态度,因为人各有志嘛,有一些金融专硕,他就想去投行投行去业界,我反而就跟他说你学术这边做的差不多就好了。因为业界里面用Excel用的真的是非常非常多,我也会花很多时间训练他们做pre的能力,你要在公众场合能很好地把想法观点卖出去。再有呢,像我招的有两个学生是从数学院过来的,我就让他在数据分析这方面多花了一些心思,他说他找工作也确实是找到那方面的工作。所以他的硕士论文可能就不够分量来让你去参考。那你倒不如把你的重心转到经济研究、管理世界、国外更好的期刊等,看看那些人是怎么把他的理论和后面的数据结合起来的。

Q39. 请连老师讲解一下什么是线性关系,什么是非线性关系。

A: 我们平时所谓的「线性关系」主要指的是参数线性关系。

  • 两个变量之间存在一次方函数关系,就称它们之间存在线性关系。
  • 如果不是一次函数关系的,图象不是直线,就是“非线性关系”。
  • 线性回归是回归系数是线性结构的回归。
  • 非线性回归是回归函数关于未知回归系数具有非线性结构的回归。

Q40. logit和probit模型都是适用于被解释变量为0,1类型,只是G(Xi b)的函数形式不同,但是两者分别适用什么情况呢?

A: 可以参照以下文章:

Q41. 讲义B4_RDD中第500行,为什么用x-0.5呢?以及510行中cut point一般怎么找呢

A: (连老师课上已回答)

Q42. 能否讲讲最优带宽的问题呢,看讲义不太理解

A: 这实际上是一个很复杂的问题,统计学里顶刊的文章基本上都是在确定最优带宽的。但是就我们这些用户而言,我们可以直接用他们已经有定论的带宽的选择方式就行了。 (连老师课上已回答)

Q43. 样本数和观察值这两个概念有什么区别吗?

A: 样本:在抽样过程中,每抽取一个个体,就是对总体X进行一次随机试验,抽取的n个个体X1,X2,…,Xn,称为总体X的一个容量为n的样本。 样本观察值:X1,X2,…,Xn,是n个随机变量,抽取之后的观测数据x1,x2,…,xn,称为样本值或子样观察值,也被称为样本观测值。 区别: 概念不同。样本是总体的一个随机抽样,样本观察值是样本的一项数据。(助教解答)

Q44. 回归中控制变量可以和被解释变量不同维度吗?比如控制变量是家庭层面的,被解释变量是个体层面的

A: 可以的。

Q45. 能否总结一下下午课程中方法的数据类型、共同点和差异?

A: 假设我们关注的是x对y的影响。

  1. RDD的话截面数据就可以做得比较好了。RDD和工具变量比较像。RDD的断点就类似一个工具变量。本质上我们就是在探究x通过x这个断点对y的影响。RDD和DID或者合成控制法区别还是比较大的。RDD的结论一般被认为是比较干净的,但是和工具变量方法类似,RDD的结果也是一个局部处理效应(LATE),不一定具有普遍性。
  2. DID的话需要面板数据,而且现在大部分好的论文都用的是大N大T的面板数据。DID是假设处理组的y的变化趋势和控制组的y的变化趋势在没有处理效应x的时候是平行的,然后去看处理效应x发生后处理组的y的变化趋势和控制组的y的变化趋势的差距。
  3. 合成控制法需要面板数据,而且要求只能有一个处理个体(假如有多个处理个体,也只能一个个体一个个体的逐个分析)。合成控制法考虑的是DID所允许的数据条件的一个特殊情况,即只有一个处理个体。另外,合成控制法不要求平行性假设成立,而要求合成的处理个体的y和真实的处理个体的y在处理效应x发生前近似,从而比较处理效应x发生后合成的处理个体的y和真实的处理个体的y。
  4. 当只有一个处理个体时,DID和合成控制法的相同之处可以这么理解。假设我们有一个数据里有1个处理个体和N个控制个体。合成控制法所得出的合成的处理个体的y是N个控制个体的y的加权平均(权重是根据处理效应发生前的数据推算的),然后比较合成的处理个体的y和实际的处理个体的y。DID所得出的合成的处理个体的y是N个控制个体的y的平均(权重一样),然后比较合成的处理个体的y和实际的处理个体的y。因为DID的合成的处理个体的y是控制组的y的平均值,所以需要平行性假设,但是合成控制法考虑的是控制组的y的加权平均值,所以不一定要平行,但是处理个体的y应该落在控制组的y的最小值和最大值之间。
  5. 目前RDD的统计推断理论比较成熟,DID也因为使用频率多而比较成熟,但是合成控制法的统计推断还有不少争议,包括连老师目前也有相关的一些研究探索。
    (==回答:助教陆嘉炫==)

Q46. 苹果电脑中合成控制法-synth-命令无法加载-plugin-的解决办法

mac中的synth命令。用连老师给的dofile里面的synth命令(e.g., 403 - 407行,834 - 837行)都执行不了,每次都会出现这个错误:Could not load plugin: /Applications/Stata/ado/personal/PX_B_2021a/adofiles/s/synthopt.plugin(error occurred while loading synth.ado)r(9999);不知道是什么问题呢?

A: 解决办法如下:

连老师可以给大家一个正面的镜头吗?上了好几天课,还不知道老师正面啥样。

哈哈!

连老师寄语:

虽然6天课程里我讲述的部分结束了,但其实我估计大家还留着很多窟窿,因为时间的限制我也没有办法完全拆解得特别细致,所以诸位回去估计到过年期间都别指望着休息了,根据我以往这么多年授课的经历,有些人放着自己记的那些花花绿绿的笔记,等到过完年再来看的时候,已经完全没有任何印象了,当时觉得听明白了,事后再仔细想想,发现好多东西都没有能够串起来,所以这段时间呢,你务必自己写一份笔记,你如果用vs code就可以写得很漂亮,虽然左边很乱,但右边写的很整齐,还可以敲公式;实在没时间你至少应该弄一个好点的本子,可以让你有一种仪式感,把我们讲的这些要点的东西,至少是你后面论文里准备要用到的东西,你应该认真整理一下。

你想想在家里收拾东西的经历,有的时候抽屉特别乱,里面啥东西都有,你觉得完全都塞不下了,如果你花点时间去分类舍弃,保留的东西按照形状规格梳理,你会发现你的抽屉至少能腾出1/3到一半的空间,这就是整理和写笔记带给你的最大的好处。你没有整理的时候,你脑子里觉得学了好多东西好丰富,一旦整理完,你会发现真正的干货留下来让你理解透的,后面准备用的部分,其实是非常有限的,那么后面三天有些同学还要参加江老师的论文班,那个压力也不小,江老师讲起课来我感觉比我还疯狂,因为到现在他还没有把讲义给我,他还在改啊改啊改啊,所以估计后面那三天你们每天都要提前把老师讲的那个论文反复要看,别心疼那点打印费,一定要把它都打印出来,认真的去读一读。你这几千块都交了,还心疼那点打印费吗?对不对?祝大家后面的三天学习快乐,然后初级班高级班已经上完,后面不再上的同学假期愉快,代问家人好,谢谢大家,bye bye!

整理:葛佳敏 刘源 刘雅玄

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看

专题 嘉宾 直播/回看视频
最新专题 因果推断, 空间计量,寒暑假班等
数据清洗系列 游万海 直播, 88 元,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。

连享会主页  lianxh.cn
连享会主页 lianxh.cn

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh