FE!FE!面板固定效应模型:你用对了吗

发布时间:2022-08-21 阅读 8247

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:曹昊煜(兰州大学) 邮箱:caohy19@lzu.edu.cn

编者按:本文内容主要翻译自下文,特此致谢!
deHaan, E. 2021. Using and Interpreting Fixed Effects Models. Working Paper. -PDF- -SUMHDFE-



1. 导言

固定效应是面板数据模型中的一般处理方法,一般用于高频分组 (企业) 或多分组数据 (企业和时间),本文主要介绍固定效应模型如何消除遗漏变量偏误以及对标准误的影响,最后说明一些固定效应在应用中的陷阱。除此之外,还涉及变异较小的群组对系数的影响和消除这一负面作用的方式。通过以上内容可以更好地设定和解释固定效应模型。

2. 固定效应模型及其作用概述

对于一般的双向固定效应模型,估计方法仍然是普通最小二乘法,基本形式是:

其中 Xit 是我们关注的核心解释变量或处理变量,Zit 是一组控制变量。ui 和 vt 是个体效应和时期效应,二者分别用于控制个体层面不可观测的非时变的因素和同一年份不随个体变化的因素。

2.1 解决遗漏变量和影响标准误

固定效应模型可以通过 LSDV 方法或组内去均值的方式实现,因此也经常表述为 "将分析的变异限制在企业内部",而经过上述变换,不随时间改变的因素就可以被消去。对于标准误而言,使用固定效应通常会牺牲估计效率,并且当遗漏的变量对 Yit 的影响很大但与 Xit 关联很小时,固定效应模型可以改进估计精度。

2.2 几乎无组内变异的解释变量

在一些情形下,Xit 的组内变化非常小,例如研究的 Xit 为 500 家企业的董事会成员规模,但可能仅有 100 家企业的董事会成员有变动,我们有时将其他 400 家企业称为 "无变异企业",因此也不直接影响 β1

  • 当我们不加入控制变量和时间固定效应时,删去无变异企业的样本能够得到与完整样本同样的结果,因此只有 20% 的样本用于估计 β1。如果我们将 FE 的估计结果视为所有企业的平均处理效应,我们无法说明这 100 家企业与其他企业是相似的。
  • 当加入了所有控制和 FE 时,无变异的企业也会通过 Xit 和其他变量的协方差间接影响 β1。如果这两类企业的差异很大,那么无变异的企业会导致估计偏误和标准误变化。

因此,要仔细考察有变异的分组和无变异的分组之间是否存在系统性差异,如果大量企业都不存在组内的变异,则需要仔细考察 FE 的设定。

2.3 FE 与 剩余的组内变异

即使多数分组中都存在组内变异,但相对于混同数据,FE 的变异更小。此时会导致一些问题:

  • 第一,剩余的变异很可能没有经济含义。
  • 第二,极小的变异可能恶化度量误差。
  • 第三,部分变异明显的分组可能会成为离群值。
  • 第四,当我们采用标准差来判断经济显著性时,如果我们使用了混同数据的标准差,则可能人为的提高了经济显著性。

3. 消除遗漏变量的方式

固定效应模型可以控制特定的遗漏变量。考虑一个简单的 OLS 模型:

被解释变量和解释变量都随着个体和时间变动。α 是截距项,代表 X=0 时的样本均值,εit 为随机干扰项。假设存在不随时间变化的因素 Zi,则方程形式变为:

如果 Zi 与 yit 和 Xit 同时相关且被遗漏,则会导致 β1 估计有偏,也可能导致第一类和第二类错误。遗漏变量情形下,β1 的偏误为:

其中 δ 是 Zi 对 Xit 回归的系数。但多数情况下,Zi 是不可观测的,此时固定效应能够处理遗漏变量的偏误。

3.1 FE 如何剔除不可观测的因素

考虑如下的公司非平衡面板数据,被解释变量 Yit 和可观测的解释变量 Xit 都是既随个体,又随时间变化的。而不可观测的 Zf 则是仅随个体变化的。

     +----------------------------+
     | Firm   Year    Y    X    Z |
     |----------------------------|
  1. |    1      1    1    1   .1 |
  2. |    1      2    2    1   .1 |
  3. |    2      1    8    1   .3 |
  4. |    2      2   13    2   .3 |
  5. |    3      1   55   10   .5 |
  6. |    3      2   65   12   .5 |
  7. |    4      1   71   13   .6 |
     +----------------------------+

所谓的个体固定效应模型本质上是通过加入一系列虚拟变量,每个虚拟变量唯一对应一个样本中的个体。假设 Zi 可以观测,同时在方程中加入 Zi 和固定效应,即:

其数据形式为:

--------------------------------------------------------
 Firm   Year    Y    X    Z  Firm1  Firm2  Firm3  Firm4 
--------------------------------------------------------
    1      1    1    1   .1      1      0      0      0 
    1      2    2    1   .1      1      0      0      0 
    2      1    8    1   .3      0      1      0      0 
    2      2   13    2   .3      0      1      0      0 
    3      1   55   10   .5      0      0      1      0 
    3      2   65   12   .5      0      0      1      0 
    4      1   71   13   .6      0      0      0      1 
--------------------------------------------------------

由于 OLS 要求每个变量不能作为其他变量的线性组合,而 Zi 可以表示成

因此,是否在模型中直接加入 Zi 并不重要,在大多数软件中,会自动剔除该变量。

. reg Y X Z Firm1 Firm2 Firm3 Firm4
note: Z omitted because of collinearity
note: Firm4 omitted because of collinearity

  Source |       SS           df       MS      Number of obs   =         7
---------+----------------------------------   F(4, 2)         =   5924.93
   Model |  5924.92857         4  1481.23214   Prob > F        =    0.0002
Residual |          .5         2         .25   R-squared       =    0.9999
---------+----------------------------------   Adj R-squared   =    0.9997
   Total |  5925.42857         6  987.571429   Root MSE        =        .5
--------------------------------------------------------------------------
       Y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
---------+----------------------------------------------------------------
       X |          5   .3162278    15.81   0.004     3.639382    6.360618
       Z |          0  (omitted)
   Firm1 |       -9.5   3.843826    -2.47   0.132    -26.03865    7.038649
   Firm2 |         -3   3.687818    -0.81   0.501     -18.8674     12.8674
   Firm3 |         -1   .8803408    -1.14   0.374    -4.787801    2.787801
   Firm4 |          0  (omitted)
   _cons |          6   4.141256     1.45   0.284    -11.81839    23.81839
--------------------------------------------------------------------------

事实上,FE 并非仅仅剔除了 Zi,一切不随个体变化的因素都被排除在方程以外。同时关注上述结果,Firm4 同样被 Stata 自动删除,其原因在于虚拟变量陷阱,因此,我们实际上只需要纳入 F1 个个体的虚拟变量。控制个体的 FE 模型可以表示为:

3.2 组内估计量的含义

在实践中,如果个体有很多,那么使用虚拟变量的方法会生成很多的解释变量,因此一般选择另一种便于计算的方法。不可观测的变量 Zi 对每个个体的观测都是相同的,一个直觉的想法就是:如果能够通过某种方式仅比较个体内部的观测值,由于此时的 Zi 都相同,因此 Zi 不会造成干扰。实现这种思路的一种方式是对每个个体单独进行回归,而这么做的问题有两个,一是估计效率很低,二是部分个体可能没有足够的样本用于估计。

另一种方式是通过转换,使得数据表示相对于组内其他观测的偏离程度,简单地讲就是去除组内均值(de-mean)。


. foreach v of varlist Y X Z{
  2.   bys Firm: egen `v'_m = mean(`v')
  3.   gen `v'_dm = `v' - `v'_m
  4.   drop `v'_m
  5. }


     +-------------------------------------------------+
     | Firm   Year    Y    X    Z   Y_dm   X_dm   Z_dm |
     |-------------------------------------------------|
  1. |    1      1    1    1   .1    -.5      0      0 |
  2. |    1      2    2    1   .1     .5      0      0 |
  3. |    2      1    8    1   .3   -2.5    -.5      0 |
  4. |    2      2   13    2   .3    2.5     .5      0 |
  5. |    3      1   55   10   .5     -5     -1      0 |
  6. |    3      2   65   12   .5      5      1      0 |
  7. |    4      1   71   13   .6      0      0      0 |
     +-------------------------------------------------+

. reg Y_dm X_dm Z_dm
note: Z_dm omitted because of collinearity

  Source |  SS           df      MS      Number of obs   =         7
---------+----------------------------   F(1, 5)         =    625.00
   Model |   62.5         1       62.5   Prob > F        =    0.0000
Residual |     .5         5         .1   R-squared       =    0.9921
---------+----------------------------   Adj R-squared   =    0.9905
   Total |     63         6       10.5   Root MSE        =    .31623
--------------------------------------------------------------------
    Y_dm | Coef.   Std. Err.     t    P>|t|     [95% Conf. Interval]
---------+----------------------------------------------------------
    X_dm |     5         .2   25.00   0.000     4.485884    5.514116
    Z_dm |     0  (omitted)                                     
   _cons |     0   .1195229    0.00   1.000    -.3072433    .3072433
--------------------------------------------------------------------


使用 OLS 估计去均值后的方程:

可见即使我们观测到了 Zi,去均值后其取值也全为 0,因此无需加入回归方程,该方程的回归系数与之前的结果几乎相同。因此,有时候我们也称 FE 模型将分析限定在组内。

3.3 多组与多维固定效应

在现有的研究中,加入多个组别的固定效应是标准的做法,例如同时加入个体和时间效应。使用多组固定效应的原因与单一组别的固定效应相同,都是为了剔除相关的遗漏变量,例如:

如果 Z2t 也是不可观测的,那么我们可以通过加入两类固定效应分别剔除 Z1i 和 Z2t。其形式为:

在加入多组固定效应时,需要注意的是不能存在某一分组是另一分组的子集。例如使用日度数据时,由于日期是年份的子集,因此不能同时加入年度效应和日度效应。

除了单独加入不同组别的固定效应外,还可以通过细分或组合不同分组构造更为合理的固定效应。例如如果每个个体每一年拥有多个观测值,那么可以加入 "个体-时间" 固定效应,该方法为每一类 "个体-时间" 分组生成一个虚拟变量。例如,在一个 10 个个体,2 年的数据中,可以生成 20 个代表 "个体-时间" 效应的变量。

3.4 在 DID 中的应用

使用面板模型构建的 DID 模型基本形式为:

其中 Treati 用于区分是否为处理组,Postt 用于区分是否是政策开始之后,TreatiPostt 为二者的交乘项,相当于一般模型中的 Xit。类似地,我们可以通过加入 FE 消去前两个变量:

该模型称为 广义双重差分 模型,当存在多个处理组和处理时间时,广义双重差分模型可以进行统一地处理。

3.5 检验斜率差异

有时候我们想要研究 Y 和 X 之间的关系是否随着 Treat 变化,那么需要同时在模型中加入 XTreat 和 XTreat

但如果 Y 和 X 之间的关系也随着个体特征 Zi 变化,那么必须在模型中同时控制 Zi 和 XitZi。如果我们使用 FE 去除了 Zi,那么同理需要在模型中控制 XitFirm,此时每个个体拥有不同的斜率估计。

实践中,如果个体是高频的,那么可能放大标准误。此时可以退而求其次选择低频的 FE,例如企业数据中,可以控制 XitIndustry,尽管这一做法在某些情形下是合理的,但在描述中需要特别小心。

4. FE 对标准误的影响

4.1 FE 与第二类错误

当存在相关的遗漏变量 Zi 时,直接控制 Zi 或者由于无法观测而使用 FE 的估计结果完全相同且都是无偏的,但是标准误存在一定的差异。一般而言,后者的标准误会相对较大,因此显著性可能会有所下降,如果因此拒绝了原假设,则很可能范第二类错误。

参数的标准误形式为:

其中:

  • σ^res2 是残差方差,也就是被解释变量中未被解释部分的方差
  • SST 是解释变量 Xit 的总变异,其大小约等于 Xit 的方差乘以样本数量
  • RX2 是使用 Xit 对其他解释变量回归得到的拟合优度,由于拟合优度会随着变量个数增加而增加,因此 (1RX2) 总是下降的

考虑使用 FE 替换不可观测的 Zi,可以对标准误中的各部分进行分别考察:

  • σ^res2 不会发生明显变化,因为使用 FE 和 Zi 对 Yit 的解释程度基本相同。在一定情形下,FE 解释了更多变异,因此可能会导致 σ^res2 下降
  • SST 可能会下降,因为在回归中仅有一次观测的个体可能会被排除在样本以外
  • RX2 会上升,因为加入了诸多虚拟变量作为解释变量,相应的 (1RX2) 会下降

因此,FE 估计中标准误的分子和分母同时下降,其总体会出现显著的提升。由此产生了一个难题,如果确信方程中存在不可观测的 Zi,如果剔除它,则可能得到有偏估计和第一类错误,而使用 FE 则可能出现第二类错误。相对而言,学者更倾向于接受第二类错误,因此使用 FE 是更好的选择。

如果遗漏 Zi 对 β1 的估计没有影响,即概率极限中的偏误 β2δ 为 0。此时可能出现三种情况:

  • β2=0,δ=0Z 对 Y 和 X 没有影响
  • β2=0,δ0Z 对 Y 没有影响而影响 X
  • β20,δ=0Z 对 Y 有影响而不影响 X

在第一种情形中,分子和分母的第一项不会受到 FE 的影响,而 RX2 会因为加入了 FE 而上升,因此标准误整体会出现上升,严重的情形下会导致第二类错误。该结论意味着有两种情形下 FE 模型可能并不适用:

  • 适用 Xit 对 FE 做回归,如果拟合优度很小,那么 Xit 和 Zi 很可能是不相关的
  • 当 β1 的系数在加入 FE 前后不发生变化,则 FE 模型可能也是不合理的

但是这两类诊断方式反过来并不适用,即使 FE 对 Xit 有显著影响,或者 β1 出现了明显变化,也不能说明 FE 模型是必要的,可能存在 FE 和 Xit 的随机相关或者坏控制问题。

在第二种情形中,加入 FE 同样会导致很高的 RX2,即 FE 会吸收很多 X 中的变异。这种情况在会计和金融中可能是合理的,因为许多 Xit 在公司内部变化不大,这表明 Xit 存在未观察到的决定因素。

在第三种情形中,FE 能够降低发生第二类错误的风险。如果 Zi 与 Yit 相关,则只会提高对 Yit 的解释度,因此标准误分子会变小,RX2 会增加,但前者的变动幅度更大。

4.2 多维固定效应与聚类稳健标准误

对于多维固定效应,当加入控制变量或多个分组的固定效应时,会加剧标准误的负面影响。

在实践中,通常会施加回归残差相互独立的假设,FE 并不必然校正残差相关时的标准误,反而可能使本身独立的数据出现相关性。当固定效应分类很多时,去除组内均值可能导致独立数据出现相关性。因此,在固定效应模型中使用聚类稳健标准误非常必要,但需要注意的是 FE 必须嵌套在聚类分组中,例如企业层面嵌套在行业层面内。

5. 无组内变异问题

在会计和金融领域,X 可能在企业内部很少随时间发生变化。例如披露、董事会成员数量或是否有四大审计公司的审计师都具有很强的粘性,因此其组内变异非常小。由于 FE 将分析的变异限定在组内,所以 X 对 β1 的估计难以起到关键的作用。由此引发了两个问题:

  • 是否应当删去不存在组内变异的个体
  • 如果样本中存在大量不存在组内变异的个体,那么 FE 的层级是否合理

5.1 情形一:单点数据

在本文的范例数据中,Firm4 称为单点数据(singleton),当我们进行去均值计算时,单点数据的所有变量均为 0,因此对参数估计没有任何作用。

--------------------------------------------------------
 Firm   Year    Y    X    Z  Firm1  Firm2  Firm3  Firm4 
--------------------------------------------------------
    1      1    1    1   .1      1      0      0      0 
    1      2    2    1   .1      1      0      0      0 
    2      1    8    1   .3      0      1      0      0 
    2      2   13    2   .3      0      1      0      0 
    3      1   55   10   .5      0      0      1      0 
    3      2   65   12   .5      0      0      1      0 
    4      1   71   13   .6      0      0      0      1 
--------------------------------------------------------

单点数据会导致标准误发生偏误,因此删去单点数据是必要的。如果数据中存在大量的单点数据,那么说明现有的 FE 对于数据而言过于严格,此时需要考虑是否要使用当前的 FE。例如,如果企业数据中存在大量的单点数据,可以考虑使用行业固定效应。

5.2 情形二:非单点数据且无组内变异

5.2.1 理论与模拟

更为复杂的情形是数据本身具有多期观测,但是组内确实不存在变异,例如范例数据中的 Firm1,此时这部分样本对 β1 的估计同样不起作用,但是同样会影响标准误的分子。考虑具有控制变量的 FE 模型:

从计算的角度来讲,没有变异的样本对 β1 的估计没有任何影响。但实际上,当不存在控制变量时,无组内变异的样本可能会通过改变标准误的分子来影响统计推断的结果。

如果无组内变异的个体在控制变量或其他固定效应的维度中存在变异,那么可能会通过 X 与其他变量的相关性间接影响 β1 的估计,也会同时改变标准误的分子和分母。

如果 X 存在和不存在变异的个体高度相似,换句话说,两类个体具有相同的数据生成过程,那么无组内变异的个体能够提高检验势并降低第一类和第二类错误的风险。如果删去了无组内变异的个体,可能会降低估计效率,因为没有使用这些样本估计 γ 和 τ。此时 β1 估计的标准误会非常大,很可能出现第二类错误。

如果X 存在和不存在变异的个体并不相似,那么保留无组内变异的个体可能会出现问题。考虑如下数据生成过程不同的模型:

  • With variation in X
  • Without variation in X

由于不存在组内变异的样本对参数估计不起作用,因此将所有样本混合在一起得到的参数估计为 5,我们会说对所有企业而言平均处理效应为 5。但实际上这种解释存在问题,因为真实的平均处理效应是 5 和 0 的均值 2.5。

当控制变量的效应存在差异而 X 不存在差异时时:

  • With variation in X
  • Without variation in X

仅使用有组内变异的样本能够获得一致估计,但如果将所有样本混合在一起,则控制变量的估计会出现偏误,得到 5 到 20 之间的估计结果,此时 β1 的参数估计和标准误也会出现偏误。偏误的方向和大小取决于 Xit 和 Controlit 的相关性。

下面使用模拟数据来说明这一点,首先生成一份 10 个个体的 10 年数据,在后十个个体中,将 X 的组内变异设定为 0。

clear all

set obs 100
set seed 101010
egen id = seq(), from(1) to(10) block(10)
bys id: gen year = 2000 + _n

xtset id year

tempvar X1 X2 X3 X4

gen `X1' = rnormal(50,5) in 1/50
gen `X3' = rnormal(50,5)
bys id: egen `X4' = mean(`X3')
gen `X2' = `X4' if `X1' == .

gen X = `X1' in 1/50
replace X = `X2' if X == .

gen Z = rnormal(60,5)
gen e = rnormal(0,1)

tab id, gen(Firm)

local fe "0.1*Firm1+0.2*Firm2+0.3*Firm3+0.4*Firm4+0.5*Firm5+0.6*Firm6+0.7*Firm7+0.8*Firm8+0.9*Firm9+0.2*Firm10"


gen Y = 5*X + 5*Z + `fe' + e

gen Y1 = 5*X + 5*Z + `fe' + e in 1/50
replace Y1 = 5*Z + `fe' + e if Y1 == .

gen Y2 = 5*X + 5*Z + `fe' + e in 1/50
replace Y2 = 5*X + 20*Z + `fe' + e if Y2 == .


reghdfe Y X Z,absorb(id year) 
est store m1
reghdfe Y1 X Z,absorb(id year) 
est store m2
reghdfe Y2 X Z,absorb(id year) 
est store m3

local model "m1 m2 m3"
esttab `model' `out',replace nogap compress  star(* 0.1 ** 0.05 *** 0.01) ///
       s(N F r2) b(%6.3f)  t(%6.2f)  mtitle()

-------------------------------------------------
                 (1)          (2)          (3)   
                   Y           Y1           Y2   
-------------------------------------------------
X              5.026***     5.026***     6.719***
            (197.60)     (197.60)       (5.85)   
Z              5.027***     5.027***    12.557***
            (257.76)     (257.76)      (14.26)   
_cons         -2.415     -127.382***   -85.461   
             (-1.30)     (-68.57)      (-1.02)   
-------------------------------------------------
N            100.000      100.000      100.000   
F            4.6e+04      4.6e+04      107.882   
r2             0.999        1.000        0.994   
-------------------------------------------------

根据模拟结果,当两类企业的数据生成过程相同时,得到的估计是无偏的。而当 X 的系数不同时,得到了相同的估计结果,但是高估了 X 对 Y 的影响。即使 X 之间不存在差异,而控制变量存在差异时,估计出现了一定的偏误,偏误方向与 X 和 Z 的相关性有关,当二者为负相关时,存在向上的偏误,当二者为正相关时,存在向下的偏误。并且标准误快速上升,很有可能出现第二类错误,控制变量的参数为 12.72,介于 5 到 20 之间。

5.2.2 低频固定效应

我们通常认为在低频的固定效应中无组内变异的个体很少,但实际上在类似年份固定效应的低频分组中,无组内变异的样本同样很多。在 Dodd-Frank 的一项研究中,使用一份 2005-2014 的季度数据,生成一个虚拟变量,当时间在 2010 年 7 月 1 日之后取值为1。方程为:

如果使用了年份固定效应,那么除了 2010 年,其他年份的样本均不存在组内变异,这意味着低频的 FE 同样可能导致大范围的无组内变异情形。大约 90% 的样本通过控制变量和 Postit 之间的相关性影响 β1。因此,解释 X 变异的来源是很重要的。

5.2.3 DID 模型中的无组内变异

DID 是一个使用无组内变异个体来获得无偏估计的特例。考虑一个基本的广义 DID 模型:

当限定 Treati=0 时,TreatiPostt=0 是无组内变异的,即控制组都是无组内变异的。而当 Treati=1 时,TreatiPostt 会随着 Postt 发生变化。

如果我们只对存在组内变异的样本进行回归,TreatiPostt 与年份效应完全共线,因此无法进行估计。如果加入控制组,尽管这部分样本对估计 β3 没有影响,但有助于估计 τ,从而间接影响  β3。我们通常所说的平行趋势假定,实际上正是在排除两类个体存在明显差异的情形。

5.3 如何处理无组内变异的样本

检查有多少企业不存在组内变异是必要的,其基本方式是计算每个个体的标准差,看看有多少个体的标准差为 0。当存在多维固定效应时,需要对每一类分组进行检查。如果存在很多无组内变异的个体,那么需要谨慎地考虑企业之间是否是相似的。

如果 X 是随机分配的,那么二者的差异并不关键,无组内变异的样本有助于提高估计效率。但如果 X 不是随机分配的,那么需要考虑 X 中变异的来源,并且存在和不存在组内变异的企业是否存在差异。在部分情形下可以依赖于一些检验,例如 DID 模型中的平行趋势检验。具体还可以进行以下的分析:

  • 检验两类个体关键变量的差异,与 PSM 中 "协变量平衡性" 的检验非常类似。关键变量的选取依赖于特定的设计,但是注意不要检验影响 X 的变量
  • 分别对两类个体使用 Y 对所有控制变量和 FE 做回归,如果估计结果差异非常大,那么两组样本的数据生成过程很可能是不一致的

总而言之,如果我们认为具有组内变异和不具有组内变异的个体之间确实存在差异,一个选择是挑选一些相似的个体进行分析,例如进行匹配。传统的方式是删去这些组内无变异的样本,但可能导致检验势下降或参数无法估计(例如 DID 模型)。无论使用哪种方式,一旦存在大量的无组内变异情形,就需要仔细对比是否包含这些样本的结果。

6. 剩余组内变异

6.1 如何检查组内变异

即使多数个体都存在组内变异,但组内变异总是小于全部样本的变异。因此检查有多少组内变异用于估计,并对比组内和总体变异是很重要的。计算方式是使用 X 对所有 FE 进行回归,在双向固定效应中:

回归后计算残差,其标准差即为组内变异。使用残差的标准差除以全部样本的标准差,即可得到组内变异的份额。在进行 FE 估计之前,详细地描述有关 FE 的信息非常必要。

6.2 剔除大量变异后的问题

当使用 FE 剔除了大部分 X 中的变异之后,首先出现的一个问题是组内变异不具备经济含义。例如在研究 CEO 任期对其行为的影响时时,如果我们控制了 "公司-CEO" 固定效应,那么组内的任期标准差会非常小。如果在真实的世界中担任 10 年的 CEO 才会发生行为变化,那么当数据中几乎没有这么大的变异时,使用这一类固定效应无法得到正确的估计。

另一个问题是较小的组内变异可能放大度量误差的后果。如果实际的 X 在组内变化很小但是度量误差会在时期之间变化,那么如果纳入了固定效应,可能会使得度量误差更严重。例如在研究董事会规模的例子中,董事会成员的数量实际上在年度之间变化很小,但如果统计数据在加入新的成员时,没有去除卸任成员,可能会使得董事会成员在观测上表现出不断增加的趋势。此时使用 FE 会使得任何解释变量的度量误差对 β1 的影响更明显。

第三个问题是少部分个体具有远高于其他个体的组内变异,这些个体对参数的影响也会非常大。换句话说,这些样本可能是离群值,此时 X 中可能不存在极端的观测,但是去均值后会出现离群值,缩尾也无法起到很大的作用。

6.3 使用组内变异解释参数

在解释经济含义时,使用一单位变化来解释参数的含义可能会涉及单位问题,因此有时候使用一标准差或两个分位点处的变化来计算经济含义。因此,对于 X 的影响可以解释为:一单位 X 的变动会引 Y 起 Xsd(X) 的变动。在 FE 估计中,样本整体的标准差不再是实际的变化尺度,通常使用的是组内标准差,尽管再大多数情形下,后者远小于前者。

7. 结语:固定效应 Checklist

固定效应是金融和会计中研究中的重要方法,能够在很大程度上缓解特定遗漏变量带来的内生性问题。原文作者在文中提供了一份使用固定效应模型的注意事项,结合 sumhdfe 命令能够轻松搞定固定效应的注意事项。

  • 时刻注意固定效应模型将分析的变异限定在组内
  • 仔细考虑是否需要或者为什么使用固定效应
    • 如果不可观测的 Z 不随固定效应的分组变化,并且与 X 和 Y 同时相关,那么使用 FE 能够降低第一类错误的风险
    • 如果不可观测的 Z 与 Y 不相关,而与 X 相关,那么 FE 并不是必要的,还有可能提高第二类错误的风险
    • 如果不可观测的 Z 仅仅与 Y 相关,那么加入 FE 可以提高模型的拟合水平,并降低第二类错误的风险
  • 如果需要检验斜率差异,需要将 X 与 FE 进行交互
  • 考察单点数据的存在性
    • 如果存在许多单点数据,那么可能现有的 FE 过于严格
    • 考虑在数据构造时删去单点数据,或者在每个回归中都删去单点数据
  • 对于连续变量,汇报混合样本数据的标准差、组内标准差和 FE 对变异的吸收程度
    • 如果仅剩很小的组内变异,需要重新考虑 FE 的合理性
  • 当使用 X 一单位标准差的变化来解释经济显著性时,使用组内标准差
  • 使用 sumhdfe 命令,具体可以参考 Stata:固定效应分析新命令-sumhdfe

8. 相关推文

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,700+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh