Stata 初级班-Day3,任课老师:连玉君
Update:2021/1/27 11:51
???? 课程主页:https://gitee.com/arlionn/PX
???? 板书和答疑
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh
目录
A: 控制变量的选取,尽量选择权威期刊中运用过的,可以通过这些权威期刊的控制变量选择方式,让自己结果稳健些。其实找控制变量这个事显然是对你的结果会有很大的影响。首先是从理论分析入手,比如说我们做资本结构研究的时候,就有权衡理论有优势融资理论,这些理论里边都会识别出一些影响公司负债率的关键因素。很多基本的变量是无论如何都没有理由把它扔在你模型之外的,即使它在回归的时候不显著,你也应该把它放进去。那么还有一些领域,是比较新的话题。很多的变量在界定的时候没有足够的理论支撑,这时候就需要去查文献,根据文献里边他们确定的那些变量来确定你的控制变量,因为你通常是在他们的基础上又做了一些新的变量,放进去考察这个变量的边际贡献。所以归到根上,还是要去熟读前期文献。
A: 考虑异方差的话,可以选用选项 Robust,具体可以
help logistic
。估计结果可能不是有效,得到的标准误存在差异。也可以考虑聚类调整后的标准误,因为聚类的标准误其实是包含了你对数据的特征的认知,考虑到在有些组内,比如说行业内我会允许干扰项有相关性,如果是面板数据,我会允许同一家公司内部各个年度上的干扰项有相关性。
A: 控制变量可以根据实际经济意义选择,最后再引用文献表明你选择的的确很有意义。每个控制变量的选择不需要分析的很详细,例如对公司绩效的影响,公司规模肯定是一个控制变量,这个可以不引用文献,但采用企业全要素生产率作为控制变量时,最好是引用权威期刊文献。
A: 这个就是 OLS 的一个基本假设,你可能想要问我的问题,是我上课写的那个公式:
正交。 不相关。
A: 你可以这么想,如果一个变量是重要的,你为什么不在一开始设定模型的时候就把它放进去,还非得再做了一堆的结果以后在稳定性检验这个环节才突然想起来有个变量很重要?这本身就是一个逻辑上的悖论啊。如果你是为了让文章写的完整非要弄出一个变量来做稳定性检验,那你一开始就前面就做错了呀,对不对?这个逻辑很简单,我们一般在这个稳定性环节上去加一些控制变量,其实都是加一些直觉上没有那么重要的,比如说像加一些这个行业的虚拟变量啊,或者是两三年以前发表的一个 Top 期刊上,他放了一个很奇怪的篇章,他说那东西还蛮重要的,但是多数的文章包括后续的文章都没有放那个变量,那你可以去测一下,这个没有问题,因为在模型设定的时候,有些变量呢就纯粹叫控制变量。我多加一些无非就是让我的估计可能更有效率一些,但是它不会导致遗漏变量而产生的内生性的问题。
A: 加入 9 个地区的虚拟变量主要是为了防止共线问题,自己加入后,Stata 也会随机删除一个地区的虚拟变量。当然在回归之前,自己可以手动删除一个地区虚拟变量。控制地区效应,一般加入地区虚拟变量,用法为:
reg y x i.region,r //region为地区编号
A: 如果你的解释变量是两三个虚拟变量,那就代表他们的量纲都是相同的,这个时候是可以比的。但是也要做假设检验。可以使用
test
命令。如果两个变量的是完全不同的量纲,就好像我们汽车价格那份数据里边,解释变狼既包含汽车的重量,又有汽车的长度,二者量纲不同,他们的系数是无法直接比较的,因为量纲不同。有一个办法是做标准化,每个变量都减掉自己的均值,除上自己样本内的标准差。标准化以后的系数的含义已经发生变化了:表示 X 变动一个标准差,Y 那边变成多少个标准差,这时候是系数之间是可以比较的。再有一个办法,就是我今天讲到的 R 平方的分解。因为 R 平方的分解到最后呢,就是每一个解释变量能够解释 Y 的变动的百分比,它本身是一个没有量纲的东西,那你当然是可以做比较了。我们在好几篇文章里面都用到了这个办法,具体可以参考一下推文:lianxh domin
A: 这种情况推荐使用 did。或者查下资料采用广义合成控制,好像 R 语言程序包公布了。
A: 标准化后的值基本保留了原始数据特征,回归时,显著标准误不存在差异,而取对数数据特征发生了较大变化,推荐统一成一种处理方法。
A: 这次讲课的内容是按照大纲进行的。那至于说用什么方法,我觉得固定效应、logit 就可以。但是我不知道你为什么要用
logit
,你的身高是一个 0,1 的变量吗?除非你把身高给弄成高于平均值或者低于平均值、高于日本平均值或者低于日本平均值。我觉得固定效应模型就可以,你的身高是一个连续的变量嘛,无非就是可能要考虑一个动态面板,因为身高它本身是有一个序列相关性的。
A: 你如果模型不放常数项的话,它就相当于你人为的约束从原点出发(那个常数项就会跑到干扰项里面去嘛),不随时间变化的一些东西,有可能会和你的 X 是相关的。我觉得我今天上午画那个散点图是很清楚的,如果是 X 和 Y 是一条水平的带状的散点的分布,那你不放常数项的时候,你会发现一个非常显著的系数,不是说 X 的变动影响了 y,是你人为的约束了常数项等于 0。
A: 无法确定原因,直接删除。
A: 参见连享会推文 Stata: 如何检验分组回归后的组间系数差异?。
A: 参见:
另外,在高级班的最后一天下午会讲这个问题的。你也可以到网上去搜一下,我之前有讲过这方面的内容(优酷上搜连玉君)。这可能跟你开车一样啊,你没开到一定的里程数,好多东西你没经历过啊,他就完全没感觉。我刚开始开车的时候,我的同事跟我讲说你不开。就没叫入门,我说我觉得我开了 1000 公里,我觉得开的挺好的嘛,后来有一次差点在校内撞到别人,就是因为在这个看不清前面转弯的路况的情况下还在踩油,从那以后我开车就很老实了。所以有些东西跟你智商没关系,纯粹是要交经验税,那背后的含义是什么呢?就是你一定要多读论文多写论文,然后要多跟别人讨论。讨论的过程实际上才会意识到你自己想的时候有些点想的不对或者方向都想错了。看大牛的论文的时候,你如果不动手去重现,你根本就没感觉,因为你会觉得他这个文章每一个环节都做的是天衣无缝的,但是你去重现的时候,你会发现它其实很巧妙的把某些东西都美化掉了。和走马观花一样,腿瘸了我就骑个马对不对?虽说要善于掩盖自己的缺点,但是从科学研究的角度来讲,你应该原原本本的把它呈现出来。
Boostrap
和 Jackknife
都无法适用?A: 应该是研究主题不同吧,形成的样本就是母本。就像省级数据,包括东中西,也是随机抽取。要是研究创业板,bootstrap 就从创业板中抽取。
bootstrap
抽样法时,从现有样本中可重复抽取 N 个观察值,这个 N 等于初始样本的数量吗,比如说 80 个初始样本, bootstrap
就是可重复抽取 80 个观察值,抽取 500 或 1000 次?A: 你用 Bootstrap 去做抽样的时候,基本上我们目前的做法全都是抽的观察值的个数刚好等于原始样本的观察值的个数,因为做 Bootstrap 的时候是有放回的抽样。
参见连享会推文:
A: 检验的是否显著异于 0。
β
跑出来的是 95% 置信区间中的一个估计系数,这个置信区间是否包含 0 ,包含 0 就是不显著的,所以检验是否显著异于 0 。我在高级班里面讲面板门限模型的时候,里面就会涉及到一个检验一下我估出来的门槛值,是不是等于真实值的检验,那就是你说的这种。那个一般做的很少,因为我们经济学家呀,都很粗暴地定性看一看 X 对 Y 有没有影响,影响的标准就是 β 是不是等于 0。
jackknife
和 bootstrap
,就普通 ols
而言,se(B)
生成的原理是什么?比如 auto.dta
样本数就 74 个, ols
内部会跑好几遍回归,得到不同的系数值?A: 统计特性
在得到 OLS 估计式
为了对估计进行假设检验,我们必须明了
有关 Bootstrap 和 Jackknife 的介绍,参见连享会推文:
A: 你用 Jackknife 来做这个标准误的推断的话,其实前提假设也依然是模型里边的解释变量是外生的,如果没有这个条件你这个 Jackknife 也搞不定啊,因为 Jackknife 前提是说,你那估计量是个无偏的估计量。考虑到你样本里面有这种异方差的问题,所以采用这种反复抽样的方式构造经验样本来帮你去算这个系数的准确程度,也就是系数的标准误。无论你采用 jk 还是 BS,前提都是你目前得到的这个估计量是无偏的。因为你可以想一下啊,我每次采用刚才那两种方法去做一次经验抽样的时候,得到那个样本,放到那以后我还是用 ols 去估计的嘛,如果你拿到一个有偏的估计量去估的话,你就估他一万次算出来就是有偏的估计量的一个分布,那就不确定那个分布到底能不能反映真实的状况是吧。比如说打网球,五盘三胜制,如果每一盘在评分的时候裁判都偏向于费德勒,那你就是打 100 盘,大家仍然觉得这是一个不公平的比赛。
Bootstrap
每次随机抽样抽出的样本数 N
是多少呢?会随着研究问题改变而改变吗?A: 其实在
Bootstrap
里面最关键的是抽样次数样本比较小的时候,你可以抽样的次数少一点,多的时候呢,抽样的次数就多一点,这个倒没有标准的准则啦。我觉得就是上市公司的研究啊,比如说 N 等于 3000 年、份等于 10 年,大概就 3 万笔观察值,你至少要做 2000 次以上的抽样,这个是在算系数的标准误。如果是算系数的置信区间,可能要做到 5000 次以上。如果你那个统计量特别复杂,可能次数还要增加,那做到什么程度为止呢?就变成说我做 8000 次跟做 9000 次跟做 12,000 次这三种情形下,我的系数呢都不会存在特别大的差别,也就是说你的结果不会因为你选择抽样次数而发生改变,这时候你就选一个差不多的抽样次数就 OK 了。
有关 Bootstrap 的介绍,参见连享会推文:
A: 异方差检验可以参考 B-P test,具体参考以下代码:
sysuse auto, clear
reg price weight mpg turn foreign
estat hettest, normal /*B-P检验的原意,同方差假设*/
对于 G-Q test,参见 help gqhet
,white 检验,参见 help whitetst
。
car
怎么计算?在 Stata 里怎么实现?A:- 专题:回归分析
A: 可以的,在 option 里面能设定。可以参考:
sysuse auto,clear
twoway (scatter price mpg, mlabel(price))
A: 相关系数较大两个变量,存在共线。或者采用方差膨胀因子,VIF 较大共线存在:
sysuse auto,clear
reg price wei length rep78
estat vif
A: 这个统计学里面有很多方法来检验正态分布。比如说我直接看也是一个办法啊。画一个直方图或者算他的均值还有偏度、峰度这些统计量,你也可以输入
findit normal test
找相应的命令。
excel
格式的年鉴数据中抓取所需数据的方法?A: 我不知道你提到的「抓取」是什么意思,要给出清晰的界定才行。比如说,无论是从网上爬虫也好,通过 Python 去编程抓取也好,但凡提到「抓取」,一定要有一个预先的非常清晰的定义程序才能帮你去做,否则的话干不了。所以说你从 Excel,比如说每张 Excel 表格里边都会有 10 张子表,那你说我是抓第 5 张表还是说从这个 Excel 里面的所有子表里面,去扫描一遍抓包含特定的关键词(比如说包含货币政策这个关键词)把那些行或者那些列抓出来,你需要有一个清晰的定义就可以做。
cluster
的最高层级是什么意思?A: 比如下面这个例子:我在模型里面既包含了公司层面的个体效应,又包含了行业层面的个体效应,就相当于我要去控制两组虚拟变量,可是我们知道多数的情形下行业是比公司更高层级的或者是更宽泛层级的一个分类,那么我在后面加
vce(cluster industry)
考虑剧烈调整后的标准误呢,我就应该加 industry。你既然在模型里面加入了行业的虚拟变量,实际上你就是认为同一个行业内部的公司是一组的嘛,那么这些组内的公司,每个公司下面又分了好多年,你认为这些观察值之间彼此是有相关性的。所以,你在考虑他们的干扰项的时候,就应该假设这种相关性存在。
reg y x i.idcode i.industry
参见:
dominA rank
这个命令是不是主要用在分析类似于“有哪些因素对于 y 有影响”这一类的研究问题上?如果对于只有两个解释变量的话用这个命令的意义是不是不大?谢谢。A:
dominA
这个命令没有做任何什么统计的计算,只是在domin
的基础上让结果呈现的更符合我们在论文里面呈现的样子,所以即使没有这个命令也没关系,你无非就是花点时间去复制粘贴整理一下那张表格而已。
A: 不影响统计推断地情况下社会学、管理学经常用标准化数据,经济学一般取对数。
A: 如果模型里面出现异方差等情形,你的 R 平方就有可能跳出 0~1 的范围,可能是小于 0 的或者大于 1 的。简单来讲,做非线性最小二乘的时候 R 平方你完全可以不用报告,因为没有什么意义。
Jackknife
和 Bootstrap
呢?谢谢老师!A: 用于构建面板门限模型,计算 F 统计量。 具体来说,通过
Bootstrap
产生经验样本,利用这些经验样本呢再算出 1000 个 F 值,通过计算机模拟的方式来去分析这 1000 个数构成的这个分布的特征。比如计算置信区间,标准误。之所以这么做是因为 F 统计量的值取决于一个未知参数,那个未知参数需要通过网格搜索的方法事先获取。也就是说得到一个统计量,它要分两步,第 1 步先要去搜索一个参数,第 2 步在基于这个参数构造统计量叫伴随参数的问题。这种情况下算出来这 F 统计量的分布是在理论上没有办法推导出来的。 另外如果数据从直觉上或者是前期文献的分析进行分析,存在很严重的和正态分布的偏离,就需要用 Jackknife 和 Boostrap 来获取标准误。比如说做专利的数据,那个专利的分布,它可能就不是一个正态分布,因为很多公司的专利的数值呢就是 0 或者一还有就是每年开车拿罚单的个数也是集中在 01 的这样的一些状况上,所以就可能需要考虑一方差或者过度分散的这种问题。
A: 保留了常数项的模型等价于去均值的模型,这两个是等价变换,所以说常数项的作用是为了去均值。 假如加入工会的虚拟变量,其效果等价于对于工会成员去掉工会成员的样本均值,对非工会成员去掉非工会成员的样本均值。
更正式的分析如下:
A: 对于 xtreg 的命令,robust 等价于 cluster; 个体效应
*-----------------
*-5.3.3 估计方法
*-5.3.3.1 异方差-序列相关稳健型估计
use "xtcs.dta", clear
xtreg tl size ndts tang tobin npr, fe robust
est store fe_rb
*-等价于(在公司层面上的聚类调整标准误)
xtreg tl size ndts tang tobin npr, fe cluster(code)
*-含义:
* (1) 组内(公司内部)各年度的干扰项可以彼此相关;
* (2) 组间(不同公司之间)的干扰项彼此不相关(同期不相关,跨期也不相关)
* (3) 组间存在异方差 (A 公司干扰项的方差不同于 B 公司)
* Q: cluster(industry), cluster(year), cluster(province) 分别是什么含义?
reg Y X i.industry i.year,r
;也有用 xtreg Y X i.year,fe r
。是当 xtreg
回归显著时报 xtreg
的结果,不然就使用 reg
的回归结果?A:
i.industry#year
。请问什么情况下会 i.交乘项?另外,有文章只是 i.industry*year
和 i.area*year
,没有放单独的 `i.industry、i.year 和 i.area,请问这又是在什么情况下会这么做?A:
A: 因为每个扰动项根据分析方法的不同,可以假设都来源于同一个分布,也可以认为来源于不同的分布。举例来说,班上有 200 位同学。 根据第 1 种分析方法,可以把大家分成男和女两个组。假设男生是从男性的这个总体里抽出来的。女生是从女性的总体抽出来的。那就只有两个不同的干扰项的分布而已。 根据第 2 种分析方法,假设在男生里边可以根据年龄来分组,分成 20 岁到 30 岁,30 岁到 40 岁,每 10 岁一个组别等,还可以进一步地把男生再拆出 5、6 个组来,每一个组都来自于一个不同的分布。因为 30 岁的男生和 40 岁的男生在很多行为上已经有一些差别了。 根据第 3 种分析方法,即使在 40 岁的这一组里边,你其实还可以再根据他的教育程度,根据还有几个小孩或者根据他开什么车就反映一个人的偏好再分组。 最后,如果按照这个逻辑的细分下去,其实可以把每一个观察值都当成来自于某一个特定的特征的母体的一个分布。那这样的话实际上可以给每一个观察值对应的那个干扰项都加一个下标,因为他们都来自于一个不同的分布。
A: 第 1 种方法就是做一个 Chow 检验,是在模型里边加入虚拟变量和虚拟变量跟连续变量的交叉项。检验那个
=0 实际上是检验两组的斜率有没有差别。 第 2 种检验方法是采用 BS 进行检验。下设的是两组的,系数不存在。如果是这样的话,就可以把两个样本组的观察值混起来,然后进行随机的抽取。比如说 100 个观察值认为是第 1 组的,剩下的 100 个观察值呢就认为是第 2 组的,因为随机抽取的根据的是假设,但是这两组的观察这个系数不存在差别吗?我就可以随便抽吗?不是的。 抽 1000 次就可以做出 1000 个系数的差别,这 1000 个系数差别实际上就是一个统计量的 1000 次的观测。进一步的可以根据这 1000 次的观测有多少次是大于真实看到的那个系数差别计算概率。如果这个概率非常非常的高,那就代表真实看到的那个值是不太容易看到的。比如说真正看到的系数差别是 0.6,做了 1000 次最大值还只有 0.5,那代表说看到的那个差别是非常难以看到的一个事,那只能说原假设是错的,两个系数还是存在差别的。具体内容可以参考下方推文。
A: 通常不做改动,属于哪个行业就按哪个行业,因为中国很很多公司借壳上市, 所以行业变更有时候意味着变成了一家全新的公司。
A: 建议看帮助文档。
A:
sysuse "auto.dta", clear
twoway (histogram price if foreign==0) ///
(histogram price if foreign==1)
A: 不用报告了,R 平方也没什么意义。
A: 根据课件的指示把 ado files 放在相应位置就行了。
A: 看一下帮助文件。要是想测出他们的效果,可以把这几个选项一次一个一个地拿掉,可以看到屏幕上呈现的结果有什么变化了。
A:
A: 参考专题:
A: R 平方通常都不会出现负数,一般的是调整后的 R 平方为负。主要是因为模型里面加入了很多不显著的变量,没有增加 R 平方,反而再惩罚你的模型,所以调整后的平方就变成小于 0 的数了。比如参加足球比赛,15 个人上场跟别人 10 个人踢,但是多出来那 5 个人水平不行啊,影响到正常 10 个人的发挥,导最终效果不如 10 个人。
reg Y X controls i.industry i.year,r
时,X 正向显著;xtreg Y X controls i.year,fe r
时,X 负向显著。请问这是出现什么问题了呢?该如何抉择呢?A: 因为加了行业的虚拟变量,实际上隐含的假设是同行业内部,各个公司的结局都相同。但是再混合 OLS 中,实际上是假设样本里面所有公司的结局都相同,这个假设如果合理,那就没问题。如果不合理,可能还是用固定效应模型更好。 合理就相当于是一个截面的差别。所以今天课堂上混合 OLS 和固定效应模型一条是红线,斜率为负,另外一条是三条蓝色的线,斜率为正,两个模型都没错,只是从不同的角度在看同一件事儿。比如=今天延迟下课,有的人认为他是个好事儿。一些人认为连老师很敬业,另一些人就不买账了。所以这个没有对错之分,就是看怎么从哪个角度去看这个问题。
A:
A: 根据目的进行选择。如果目的是要检验有没有结构变化,那么模型里面假设有 5 个变量,其实只要任何一个变量产生了斜率的显著性的变动,就可以认为有结构变化。比如说改革开放中,发现生产函数里面有 K 和 L 这两个变量,不管是 K 那个系数资本的弹性发生了显著性的变化,还是劳动力的弹性系数发生了显著的变化,都认为改革开放是有效果的。所以这时候是一个联合检验,即使有一些变量不显著,但是他们整体上去检验的时候是显著,仍然可以拒绝没有结构变化的原假设。
如果目的纯粹是为了检验其中的一两个特别关心的变量有没有发生。比如我们在断点回归分析里面有一个拐点回归,目的是分析斜率有没有发生变化。如果发生变化就变成一个有拐点了的,就意味着在那个点后面斜率发生变化了。那时候其实还反而不会有这么多的交叉项,就只有一两个变量会和关心的那个政策的虚拟变量产生交叉。
A:
scheme(s1mono)
这个是画黑白图形的。scheme(s2color)
这个设定的是画彩色图形。
*-----------------------------图示-----------------margins--
reg wage hours i.D
margins D, at(hours = (5(5)80)) atmeans
marginsplot, ytitle(Fitted Hourly Wage) //noci scheme(s1mono)
*-----------------------------图示---------------------------
A: column 的简写,按列呈现基本统计量。
A: 可以参考在 Sata 里面输入命令
lianxh DID 倍分法
dis in g “*” _c
可以再解释下嘛A:
A: 因为使用 local 命令在给变量命名时更简洁。
A: 同 Q2。
A: 应该把时间效应的虚拟变量这个盒子给它拆开,然后将不含时间效应的变量单独的一个一个的放进去。 比如,
里边包含了所有不随时间变化的因素,比如要研究收入对消费的影响用的是个人层面的数据, 里边就包含了性别,出生地,星座,血型这些不随时间变化的因素。假设想研究星座对一个人的消费的影响。这就满足刚才说的这种情境,就是说这个变量,它是不随时间发生变化的。 因此应该把 这个黑盒子呢给拆开。假设认为包含 5 个核心的主要的变量,比如说出生地血型星座,如果重点关注的是星座,就应该把出生地和血型这两个变量作为控制变量,作为一个 OLS 混合回归。可以用 i.born i.bloodtype i.star
刻画。
reg consume income x2-x5 i.born i.bloodtype i.star
参见:
A: 那就用固定效应模型。
A: 省份那就看那个公司的注册地有没有发生过改变,如果发生过改变的话,就可以把那个省份效应放进去。如果一个公司的行业归属发生过时间上的变动,就可以把行业效应加入模型。但是根据经验,90%的公司行业归属在研究的样本区间里边都不发生变化,行业应该也是这样的。所以这种情况下,把固定效应加到公司层面就行了,因为它比行业层面来得更加细致。
A:
A:
//基本柱状图
sysuse auto,clear
graph bar (percent), over(rep78)
//累加柱体,并显示百分数
sysuse educ99gdp, clear
generate frac = private/(private + public)
#delimit ;
graph bar public private, stack percent
over(country, sort(frac) descending)
blabel(bar, posi(center) color(white) format(%3.1f))
title("Public and private spending on tertiary education, 1999",
span pos(11) )
subtitle(" ")
note("Source: OECD, Education at a Glance 2002", span);
#delimit cr
A: 同时控制企业、行业和国家效应,在模型中需要引入这三组虚拟变量,多数情况下国家比行业级别更高,所以在国家层面聚类
vce(cluster industry)
。需要说明的是,研究的世界上所有国家的企业数据,国家层面cluster
,但研究的是几个国家的上市企业,感觉vce(cluster industry)
。
A: 调节变量反应的是调节变量 Z 对 X 影响 Y 关系的一种改变的程度。如果是正向关系的话,随着 Z 的增大,X 对 Y 的影响逐渐增大;如果是负向关系,随着 X 的增大,X 对 Y 的影响会逐渐减弱。之前画的鱼骨图以及
margins
形成的图形都在解释这个作用原理。例如,研究家庭小孩个数对夫妻关系的影响,随着小孩一个一个的出生,夫妻关系是加强还是减弱?这就反映在交叉项的系数里了。
A: 去中心化不影响估计系数的显著性,甚至都不影响交叉项的系数。只是做了中心化处理以后呢,便于解释交叉项之前和交叉之后的那个系数有一个可比性。 前一个问题而言,加入 z 以后交乘项的估计系数不显著,这个是做研究的一个基本问题。在理论上分析完以后,认为交乘项会改变 X 和 Y 的关系,就一定需要数据要支持?这个不一定需要,可能开始的理论分析本来就是错的。所以经常会发现国外的好多文章中,某一种政策实施以后,没有产生统计上显著的效果,这个本身就是文章的结论。
cluster(industry)和 i.industry
。A: 加虚拟变量就是变截距,如果探究其经济含义,以课程中的面试的例子就很好理解。有些 Y 的变动并不是 X 的变动导致,可能是 Y 本身就具有一些特质。如果从模型设定的角度来讲,就相当于你遗漏了一些不可观测的变量。例如评估学生分数这个例子,如果你遗漏了两组评审委员他们个体的特征。如果能够有一些办法观测到两组两组评审委员各自的特征,可以用变量衡量,那直接在模型里多加这个变量就可以解决,不至于去做
cluster(industry)
和i.industry
,其实是刻画干扰项的特征以及干扰项与解释变量,完全是两回事。解释变量可以在前端控制一些东西,即使是不可观测的,也可以通过组内去心和组内差分等方式将其消除,而干扰项是完全不可观测的一些随机因素,只能假设它服从某种特征,例如假设它服从正态分布;假设今年的干扰项和去年的干扰项存在相关性。所以
cluster
的处理方式也是假设它的某种特征,例如cluster(industry)
,实际上是假设同行业内部各个公司之间的干扰项遇到外界的随机冲击时,有一定的相关性。计量经济学的本质都是在拆这个黑盒子(干扰项),这个干扰项不可观测,也成了最大的挑战。开始学的 OLS 假设 X 和干扰项不相关,假设干扰项服从正态分布同方差,这是最理想状况。然后,再开始学异方差、序列相关。实际上都是假设干扰项都有某些特征、异方差。就是说不通组别之间的方差不一样,序列相关也就是这一期和上一期受到的干扰项存在相关性。后续学习的 Garch、Var 等复杂模型都是将重点放到这个干扰项上。
A: 残差过大最基本的办法就是先做一个 ols 回归,然后再算出残差,给他排个序,就可以看到残差谁大谁小或者画一个散点图。所以它里面有相应的命令直接画残差跟被解释变量,或者是残差跟某一个解释变量之间的散点图,这个都可以非常直观。
A: 这个没有问题,可以加,而且觉得也不太难解释清楚。
logit
, probit
的模型?A: 按计划这些内容就会讲了。
A: 这个差别是立竿见影的。今天讲的时候那条红色的线,斜率是负的三条,蓝色的线平行的斜率是正的,因为红色的线讲的是大公司和小公司的业绩差别,而三条蓝色的平行线是一家公司,随着时间的推移慢慢的从小变大成长的过程中,可以直观看到它的业绩怎么变动。
A: 结果在今天最后一个小时的时候特别的强调了。其实每次加 dummy 都相当于在做一些组内的区分,最基本的一个东西就是在模型里面只放一个常数项,这就是对样本做一个均值的去心,如果加两个虚拟变量,工会和非公会,那就分别对于工会成员做一个减掉工会成员平均值的去心,而针对非公会成员也做一个减掉非公会成员平均值的去心,如果是加 13 个行业的单位,就相当于针对每一个行业内部的公司,都减掉它所在行业的均值,即使加 1 万个公司层面的虚拟变量,也无非就是对这 1 万家公司,每家公司都减掉它自己的平均值。
A: 这个可信不可信,不是我来回答的。这个本来就可以做。谁也没有要求说不能做,而且现在去看公司金融方面的研究,一个很重要的趋势就是大家会采用混合的这种数据来做,经常研究货币政策对公司的现金持有,公司的风险承担等这方面的影响。那被解释变量就是公司的负债率、风险承担,就是既随公司又随时间发生变化的,就是公司层面的变量。而解释变量,比如说货币政策的变动,它就是一个宏观层面的变量,这种文章特别多。比如说去看一看饶品贵,祝继高的研究,他们都做了好几篇这方面的文章,尤其是最近在做一些政策不确定性,EPU 的文章也都是属于这种类型的。
A: 已经
rename union D
显示的 D 下面的 union 表示为 1 的情形,不使用rename
则继续显示 union。可以_b[D##c.hours]
。
A: 加入 year dummy,加入时间趋势以及时间趋势和个体效应交乘,以及各自的含义。那你自己酌情去解释了。
R square
和 Pseudo R square
的区别是什么?如何解释呢?A: Pseudo R square,一般的都是在离散的模型里边用到的,比如说。logit、probit, 如果想了解的话,得看一看这些 R 平方是怎么算出来的,其实它有时候是根据对数似然函数值的差异来构造一个统计量,它跟我们 OLS 回归里面基于方差分解算出来这个 R 平方完全是两回事。所以他叫伪 R 平方。
FE
,即使没有通过Hausman Test
?主要是文献中看到很多还是进行 Hausman Test
,然后用 RE
的。A: 我不做 Hausman 检验,上来直接固定效应,而且是双向固定效应。去做 Hausman 检验,只能暴露一个信息,就是刚学完计量,而且理解的比较肤浅。
A: 即使是右半支也仍然可以分析,如果是这个 U 型曲线,它的斜率变化非常的明显,仍然可以用 margin support 那个命令去绘制它的边际效应的变化的趋势,应该会有非常明显的边际递增或者递减的效果。
i.id
和命令语 fe
是一样的是吗,那么 i.year
, fe
也可以是双向固定的写法吗。还有请问老师能讲一下聚类调整和固定效果模型的差异和使用吗?A: yes
A: 肯定是不行,因为时间虚拟变量的线性组合刚好就是那个时间趋势,它们是完全共线性的,除非你把时间虚拟变量做成一个分段的,这估计也不行,因为其实在说一回事,只不过那个时间趋势是把时间虚拟变量做了一个高度的简化而已。
A: IV 估计我在高级班的时候会稍微讲一下。
A: 这个我上课已经回答过了,我认为只要你的时间跨度比较长,而且在你研究的样本区间内,可能会有很多政策的冲击,就必须要加上年度的虚拟变量,否则的话审稿人过不了。
A: 可能由于共线问题导致。
A: 一般由于共线问题 Stata 会自动删除,如果行业一直不随时间变化,固定效应是无法估计的。
A: 第一个不知如何回答,需要说清楚内生性的来源是啥才能判断,请私下联系连老师下。第二个问题直接控制时间效应即可,毕竟控制时间效应范围更大。第三个问题,可以。(助教 李胜胜个人理解,可以具体私信下连老师。)
A: 可以这样写,很多中文期刊都是这么用,结合上课的内容,自己酌情考虑,自己用可以考虑引用一些权威性代表性文献(助教李胜胜个人理解,不确定私信连老师)。
A: 应该是数据结构不同,别人的数据应该是 SOE 发生了改变,你的数据一直不变。
A: Jackknife / Bootstrap 来做这个标准误的推断的话,其实前提假设也依然是模型里边的解释变量是外生的。无论你采用 JK 还是 BS,前提都是目前得到的这个估计量是无偏的。前提成立,得出的结果当然稳健。
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟,课程主页 Stata 33 讲 - 连玉君, 每讲 15 分钟. Stata 小白的取经之路 - 龙志能,时长:2 小时,课程主页 部分直播课 课程资料下载 (PPT,dofiles等)
支持回看
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 因果推断, 空间计量,寒暑假班等 | |
⭕ 数据清洗系列 | 游万海 | 直播, 88 元,已上线 |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。
关于我们
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh