StataNow:相关的随机效应-xtreg
2024-12-22
赵俊
2194

连享会   主页 || 推文 || 知乎 || B 站 || 在线课堂

New! 搜推文,找资料,用 lianxh 命令:
安装: ssc install lianxh, replace
使用: lianxh 合成控制
       lianxh DID + 多期, w


作者:赵俊 (南开大学)
邮箱m16531438093_1@163.com

  • Title:StataNow:相关的随机效应-xtreg
  • Keywords:随机效应,固定效应,相关的随机效应,StataNow,xtreg

在面板数据估计中,相关的随机效应 (Correlated Random Effects, CRE) 是对传统随机效应模型的一种扩展。它允许个体效应与解释变量相关,同时保留了随机效应模型的建模框架。这种方法旨在弥补传统随机效应模型的局限性,并在一定程度上结合了随机效应和固定效应模型的优点。

1. 相关的随机效应模型的核心思想

1.1 背景问题

随机效应模型假设个体效应 uiu_i 与解释变量 XitX_{it} 无关 (E[uiXit]=0E[u_i | X_{it}] = 0)。这一假设在许多实际情况下可能不成立,例如某些未观测到的个体特征可能与解释变量相关联。如果忽略这种相关性,随机效应模型的估计会产生偏误。

如果采用固定效应模型进行估计,固定效应模型假设个体效应 uiu_i 与解释变量 XitX_{it} 相关 (E[uiXit]0E[u_i | X_{it}] \not = 0) 。然而,固定效应模型在估计时需要采用差分或者组内去均值的方法,以消除个体固定效应。这会导致某些个体不随时间变化的变量 (比如:性别、经度、纬度) 在去除固定效应后被消除,无法估计其对于因变量的影响。此外,如果数据中解释变量的时间内变化较小 (例如,地区的年平均气温),固定效应模型可能由于方差较小而无法估计出系数。

1.2 相关的随机效应模型的假设、形式和估计

如果我们非常关注个体不随时间变化的变量对因变量的影响,但又担心随机效应的假设过于严格,导致个体效应 uiu_i 与解释变量 XitX_{it} 可能相关,那么可以考虑使用相关的随机效应模型。此模型假设个体效应 uiu_i 可以表示为解释变量的函数加上一个随机误差项:

ui=Xˉiγ+ηiu_i = \bar{X}_i\gamma + \eta_i

其中:

  • Xˉi=1Tt=1TXit\bar{X}_i = \frac{1}{T} \sum_{t=1}^T X_{it} 是个体 ii 的解释变量的时间均值。
  • γ\gamma 是待估参数,反映了个体效应与解释变量之间的关系。
  • ηi\eta_i 是随机误差项,服从零均值且与解释变量独立 (ηiN(0,ση2)\eta_i \sim N(0, \sigma_\eta^2))。

uiu_i 代入标准的随机效应模型 yit=α+Xitβ+ui+ϵity_{it} = \alpha + X_{it}\beta + u_i + \epsilon_{it},得到:

yit=α+Xitβ+Xˉiγ+ηi+ϵity_{it} = \alpha + X_{it}\beta + \bar{X}_i\gamma + \eta_i + \epsilon_{it}

这就是相关的随机效应模型的表达式。通过引入 Xˉi\bar{X}_i,该模型明确地考虑了个体效应 uiu_i 与解释变量 XitX_{it} 之间的相关性。模型中仍然保留了随机效应 ηi\eta_i,因此在估计时可以利用随机效应模型的效率。

估计相关的随机效应也非常简单,首先计算每个解释变量的时间均值 Xˉi\bar{X}_i。然后,将 Xˉi\bar{X}_i 和原始的 XitX_{it} 一起作为解释变量,使用随机效应估计方法进行回归即可。

2 相关的随机效应模型的 Stata 代码

我们导入 Stata 提供的美国女性工资面板数据,并查看变量信息。该数据集是对 1968 年时年龄在 14 至 24 岁之间女性的纵向调查,共包含 28,534 个观测值。

. lxhuse nlswork.dta, clear
. des

Contains data from https://file.lianxh.cn/data/n/nlswork.dta
 Observations:        28,534                  National Longitudinal Survey.  
                                    Young Women 14-26 years of age in 1968
    Variables:            21                  23 Oct 2018 11:40
--------------------------------------------------------------------------
Variable      Storage   Display    Value
    name         type    format    label      Variable label
--------------------------------------------------------------------------
idcode          int     %8.0g                 NLS ID
year            byte    %8.0g                 interview year
birth_yr        byte    %8.0g                 birth year
age             byte    %8.0g                 age in current year
race            byte    %8.0g      racelbl    race
msp             byte    %8.0g                 1 if married, spouse present
nev_mar         byte    %8.0g                 1 if never married
grade           byte    %8.0g                 current grade completed
collgrad        byte    %8.0g                 1 if college graduate
not_smsa        byte    %8.0g                 1 if not SMSA
c_city          byte    %8.0g                 1 if central city
south           byte    %8.0g                 1 if south
ind_code        byte    %8.0g                 industry of employment
occ_code        byte    %8.0g                 occupation
union           byte    %8.0g                 1 if union
wks_ue          byte    %8.0g                 weeks unemployed last year
ttl_exp         float   %9.0g                 total work experience
tenure          float   %9.0g                 job tenure, in years
hours           int     %8.0g                 usual hours worked
wks_work        int     %8.0g                 weeks worked last year
ln_wage         float   %9.0g                 ln(wage/GNP deflator)
--------------------------------------------------------------------------

根据对每个变量的描述,每个观测值的含义如下:

  • idcode:国家纵向调查的个体识别码 (NLS ID);
  • year:访谈年份;
  • birth_yr:出生年份;
  • age:当前年份的年龄;
  • race:种族 (racelbl 为种族的标签);
  • msp:婚姻状态,1 表示已婚且配偶在场;
  • nev_mar:婚姻状态,1 表示从未结婚;
  • grade:完成的最高学历等级;
  • collgrad:是否大学毕业,1 表示是;
  • not_smsa:是否不在标准大都市统计区 (SMSA),1 表示不是 SMSA 地区;
  • c_city:是否居住在中心城市,1 表示是;
  • south:是否居住在美国南部,1 表示是;
  • ind_code:就业行业的代码;
  • occ_code:职业代码;
  • union:是否是工会成员,1 表示是;
  • wks_ue:去年失业的周数;
  • ttl_exp:总工作经验 (Total work experience);
  • tenure:当前工作的年限 (Job tenure, in years);
  • hours:通常每周工作小时数;
  • wks_work:去年工作的周数;
  • ln_wage:工资的自然对数 (ln(wage/GNP deflator))。

我们希望研究影响女性工资的因素,通过固定效应和随机效应估计方法进行分析。具体考虑的变量包括:最高学历 (grade)、年龄 (age) 及其平方 (c.age#c.age)、工作经验 (ttl_exp) 及其平方 (c.ttl_exp#c.ttl_exp)、当前工作的年限 (tenure) 及其平方 (c.tenure#c.tenure)、种族是否为黑人 (2.race)、是否不在标准大都市统计区 (not_smsa)、是否位于南方 (south),对工资的自然对数 (ln_wage) 的影响。我们特别关注最高学历和种族是否为黑人对工资的影响。

. lxhuse nlswork.dta, clear
. xtreg ln_w grade age c.age#c.age ttl_exp c.ttl_exp#c.ttl_exp tenure ///
>       c.tenure#c.tenure 2.race not_smsa south, fe
. est store fe

. xtreg ln_w grade age c.age#c.age ttl_exp c.ttl_exp#c.ttl_exp tenure ///
>       c.tenure#c.tenure 2.race not_smsa south, re  
. est store re

. xtreg ln_w grade age c.age#c.age ttl_exp c.ttl_exp#c.ttl_exp tenure ///
>       c.tenure#c.tenure 2.race not_smsa south, cre  
. est store cre

Correlated random-effects regression            Number of obs     =     28,091
Group variable: idcode                          Number of groups  =      4,697
R-squared:                                      Obs per group:
     Within  = 0.1727                                         min =          1
     Between = 0.4899                                         avg =        6.0
     Overall = 0.3800                                         max =         15

                                                Wald chi2(10)     =    5984.86
corr(xit_vars*b, xt_means*γ) = 0.3941           Prob > chi2       =     0.0000
-------------------------------------------------------------------------------------
            ln_wage | Coefficient  Std. err.      z    P>|z|     [95% conf. interval]
--------------------+----------------------------------------------------------------
xit_vars            |
              grade |      0.061      0.002    30.86   0.000        0.057       0.065
                age |      0.036      0.003    10.67   0.000        0.029       0.043
                    |
        c.age#c.age |     -0.001      0.000   -13.62   0.000       -0.001      -0.001
                    |
            ttl_exp |      0.033      0.003    11.32   0.000        0.028       0.039
                    |
c.ttl_exp#c.ttl_exp |      0.000      0.000     1.70   0.089       -0.000       0.000
                    |
             tenure |      0.036      0.002    19.41   0.000        0.032       0.039
                    |
  c.tenure#c.tenure |     -0.002      0.000   -15.82   0.000       -0.002      -0.002
                    |
               race |
             black  |     -0.060      0.010    -5.89   0.000       -0.080      -0.040
           not_smsa |     -0.089      0.009    -9.37   0.000       -0.108      -0.070
              south |     -0.061      0.011    -5.57   0.000       -0.082      -0.039
              _cons |      0.311      0.128     2.43   0.015        0.060       0.563
--------------------+----------------------------------------------------------------
xt_means            |
              grade |      0.000  (omitted)
                age |     -0.002      0.010    -0.22   0.826       -0.021       0.017
                    |
        c.age#c.age |      0.000      0.000     0.65   0.516       -0.000       0.000
                    |
            ttl_exp |     -0.019      0.007    -2.97   0.003       -0.032      -0.007
                    |
c.ttl_exp#c.ttl_exp |      0.000      0.000     1.38   0.169       -0.000       0.001
                    |
             tenure |      0.032      0.006     4.95   0.000        0.019       0.044
                    |
  c.tenure#c.tenure |     -0.001      0.000    -1.83   0.067       -0.002       0.000
                    |
               race |
             black  |      0.000  (omitted)
           not_smsa |     -0.098      0.014    -6.78   0.000       -0.127      -0.070
              south |     -0.041      0.015    -2.76   0.006       -0.069      -0.012
--------------------+----------------------------------------------------------------
            sigma_u |  .25790526
            sigma_e |  .29068923
                rho |  .44045273   (fraction of variance due to u_i)
-------------------------------------------------------------------------------------
Mundlak test (xt_means = 0): chi2(8) = 151.6234           Prob > chi2 = 0.0000


. esttab fe re cre,se

------------------------------------------------------------
                      (1)             (2)             (3)   
                  ln_wage         ln_wage         ln_wage   
------------------------------------------------------------
main                                                        
grade                   0          0.0646***       0.0611***
                      (.)       (0.00178)       (0.00198)   

age                0.0360***       0.0368***       0.0360***
                (0.00339)       (0.00312)       (0.00337)   

c.age#c.age     -0.000723***    -0.000713***    -0.000723***
              (0.0000533)     (0.0000500)     (0.0000531)   

ttl_exp            0.0335***       0.0290***       0.0335***
                (0.00297)       (0.00242)       (0.00296)   

c.ttl_exp#~p     0.000216        0.000305**      0.000216   
               (0.000128)      (0.000116)      (0.000127)   

tenure             0.0358***       0.0393***       0.0358***
                (0.00185)       (0.00176)       (0.00184)   

c.tenure#c~e     -0.00197***     -0.00200***     -0.00197***
               (0.000125)      (0.000119)      (0.000125)   

2.race                  0         -0.0531***      -0.0604***
                      (.)       (0.00999)        (0.0102)   

not_smsa          -0.0890***       -0.131***      -0.0890***
                (0.00953)       (0.00718)       (0.00950)   

south             -0.0606***      -0.0869***      -0.0606***
                 (0.0109)       (0.00730)        (0.0109)   

_cons               1.037***        0.239***        0.311*  
                 (0.0486)        (0.0495)         (0.128)   
------------------------------------------------------------
xt_means                                                    
grade                                                   0   
                                                      (.)   

age                                              -0.00216   
                                                (0.00984)   

c.age#c.age                                      0.000104   
                                               (0.000160)   

ttl_exp                                           -0.0195** 
                                                (0.00654)   

c.ttl_exp#~p                                     0.000493   
                                               (0.000359)   

tenure                                             0.0318***
                                                (0.00642)   

c.tenure#c~e                                    -0.000798   
                                               (0.000435)   

2.race                                                  0   
                                                      (.)   

not_smsa                                          -0.0982***
                                                 (0.0145)   

south                                             -0.0406** 
                                                 (0.0147)   
------------------------------------------------------------
N                   28091           28091           28091   
------------------------------------------------------------
Standard errors in parentheses
* p<0.05, ** p<0.01, *** p<0.001
 

根据固定效应估计的结果,发现由于共线性,grade (教育水平) 和 race (种族) 被忽略。然而,固定效应估计对于这种相关性是稳健的,对其他变量的估计值是无偏的。虽然随机效应可以估计 graderace 对工资的影响,并且结果显著且符合经济意义,但我们担心随机效应假设过于严格,并且与固定效应在时变变量上的估计存在较大差异。

接下来,我们使用相关随机效应模型进行估计。固定效应模型无法估计时间不变变量 (如教育水平和种族) 的系数。如果这些变量的影响是我们的关注点,Stata 的最新版本提供了 cre 选项,可以通过指定 cre 来拟合相关随机效应模型,并将结果与之前的固定效应和随机效应模型进行比较。

在相关随机效应估计的系数表中,第一部分标记为 "xit vars",报告了时间变化和时间不变变量的系数及相关统计数据。所有时间变化的变量的系数在数值上与 xtreg, fe 的结果等价,这被称为 Mundlak 等价性。

对于时间不变变量,我们估计教育回报率为 6.1% (与随机效应模型中的 6.5% 相比),黑人身份使工资降低 6.0% (与随机效应模型中的 5.3% 相比)。由于 Mundlak 等价性,相关随机效应模型与固定效应模型具有相同的组内 R2R^2,即 0.1727。它还具有更高的总体 R2R^2,即 0.3800,因为它包括了时间变化的独立变量和面板均值作为额外的回归量。系数表的第二部分标记为 "xt_means",报告了时间变化变量的面板均值的系数及相关统计数据。时间不变变量如教育水平的面板均值被省略,因为均值与原始变量共线性。

xtreg, cre 还进行了 Mundlak 检验,以帮助决定是使用随机效应模型还是相关随机效应模型或固定效应模型进行估计。该检验测试面板均值的所有系数是否为零。检验结果可在输出表的底部找到。在这个例子中,Wald 统计量为 151.6234,pp 值为 0.0000,因此我们拒绝零假设,更倾向于选择相关随机效应模型而非随机效应模型。

最后,通过比较固定效应、随机效应和相关随机效应的系数,我们发现相关随机效应在时变变量的系数上与固定效应一致,并且还能估计出时间不变变量的系数,综合了固定效应和随机效应的优点。

3.参考文献

  • Mundlak Y. On the pooling of time series and cross section data[J]. Econometrica: journal of the Econometric Society, 1978: 69-85. -PDF-

4. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 相关效应 随机效应, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

推荐课程一:

推荐课程二:

推荐课程三:

资源共享


尊敬的老师 / 亲爱的同学们:
连享会致力于不断优化和丰富课程内容,以确保每位学员都能获得最有价值的学习体验。为了更精准地满足您的学习需求,我们诚挚地邀请您参与到我们的课程规划中来。
请您在下面的问卷中,分享您 感兴趣的学习主题或您希望深入了解的知识领域 。您的每一条建议都是我们宝贵的资源,将直接影响到我们课程的改进和创新。
我们期待您的反馈,因为您的参与和支持是我们不断前进的动力。感谢您抽出宝贵时间,与我们共同塑造更加精彩的学习旅程!https://www.wjx.cn/vm/YgPfdsJ.aspx# 再次感谢大家宝贵的意见!


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。more……
  • 扫码加入连享会微信群,提问交流更方便

最新课程:

A. 2025 暑期班:连玉君+张宏亮

B. 社会网络分析:杨张博

C. 政策优化和机制分析:杨海生

D. AI+学术研究专题:杨阳

E. ⚡ 系列公开课

  • 共八次:Python环境配置; 大语言模型应用; IV 估计; 微观数据清洗; 中介效应 (查看)
  • 参与方式: 网络直播 (7.3-24 日),扫码进群即可参与

FAQ往期课程板书和答疑文档

选题征集,点击 此处 或者扫码填写问卷留下您的宝贵意见,感谢!


NEW!视频课堂lianxh-class.cn

⚡ 新版 lianxh 命令:使用说明
. ssc install lianxh, replace
. lianxh 多期DID

ihelp:帮助文件 PDF 版
. ssc install ihelp, replace
. ihelp xtreg


lianxh_cn_saoma

连玉君 · Stata 33 讲 - 免费
  o 点击观看dofile 下载, --Book--