Stata:线性与对数线性函数形式选择-imfreg

发布时间:2023-01-13 阅读 1682

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:陈宇灿 (中山大学)
邮箱chenyc56@mail2.sysu.edu.cn

编者按:本文主要参考自下文,特此致谢!
Source:Shehata E, Mickaiel S. LMFREG: Stata module to Compute OLS Linear vs Log-Linear Functional Form Tests[J]. 2012. -Link-


目录


1. 简介

在利用 Stata 进行 OLS 回归分析时,模型设定常常有水平—水平、水平—对数、对数—水平、对数—对数四种形式。其中在对数形式的函数设定中,回归系数有弹性与半弹性的经济学含义。在实证研究中,研究者经常苦恼于如何选择合适的函数形式。

对于非嵌套模型,我们常常采用 RESET 检验以及比较调整 R-Squared 的方法来选择模型;而对于嵌套模型,我们常常利用 F 检验来进行模型选择。本文将结合 lmfreg 命令,全面地介绍 Linear Model 与 Log-Linear Model 模型设定的检验原理与 Stata 实操。

2. 模型选择指标介绍

本文中研究的 Linear Model(Model I)为常规的线性模型,即回归方程如下所示:

Log-Linear Model(Model II)由下述方程所示:

假定以上模型均满足 Gauss-Markov 假定,扰动项 ε1 与 ε2 服从正态性假定,即:

2.1 R-squared

该方法的核心思想是比较两个模型的拟合优度,并选取模型拟合优度较大的作为最优选择。其中,拟合优度可由统计指标 R2(R-Squared)表示:

如果考虑模型中解释变量 X 的数目对拟合优度 R-Squared 的影响,我们还可以对其变量个数 K 施加“惩罚”,利用 R¯2(adj-R-Squared)来比较:

在解释变量个数不同的非嵌套模型中,常常使用 R¯2 进行模型选择。由于本文中两个模型的解释变量个数相同,因此可以只使用 R2。基本思路是分别对 (1)、(2) 进行 OLS 估计,选择两个模型中 R2 更大的一个作为真实模型数据的生成过程。

2.2 Log Likelihood Function (LLF)

对数似然函数 (LLF) 源于极大似然估计 (Maximum Likelihood Estimation,MLE)。对于线性模型 (Model I),根据有关计量理论可以知道:当扰动项服从正态分布时,根据正态分布理论,在给定 X 时 y 的条件密度函数为:

进而根据似然的定义,我们可以得到对数似然函数 (LLF):

通过极大似然估计可以得到模型的 ML 估计量 β^ 与 σ~2,将估计量代入上式中可以得到模型的极大对数似然。其中 Model I 的对数似然为:

对于具有对数形式被解释变量,Model II 的对数似然为:

​ 基于 MLE 最大化似然函数的思想,我们可以从比较 LLF 的角度进行模型选择。基于更优的模型应具有更大的 LLF 这一推断,我们通过选择 LLF 较大的模型作为回归模型。

2.3 Antilog R-squared

​Antilog 顾名思义为反对数,换言之也就是指数 (exp)。从直观上看该方法的思想为利用 exp 与 log 的互逆关系构造相同水平上的回归方程进而计算拟合优度 R2。模型 (1)、(2) 的 Antilog-R2 可以通过下面流程得到:

2.3.1 线性模型(Model I)

基于 Model II 的拟合值,用 elny^ 对 y 进行无常数项的回归,将得到的 R2 定义为 Model I 的 Antilog R-Squared。

2.3.2 对数模型(Model II)

基于 Model I 的拟合值,用 ln(y^) 对 lny 进行无常数项的回归,将得到 R2 定义为 Model II 的 Antilog R-Squared。

再根据 2.1 中的思想,从备选模型中选择 Antilog-R2 更大的模型作为我们的回归模型。

2.4 Box-Cox Test

Box-Cox Test 源于统计分析中著名的 Box-Cox 变换:yy(λ)。其中

参数 λ 代表了不同的变量代换。本文研究的 Model I 与 Model II 的区别正是 Box-Cox 变换中 λ=0 的特例,我们可以通过假设检验构造统计量来进行模型选择:Box 与 Cox 在 1964 年基于 Box-Cox 变换提出了 Box-Cox 检验。

该检验的原假设为:H0:λ=0。该条件对应的是选择 Model II 中的对数形式模型,Box-Cox 检验统计量由下式给出:

​ 在大样本的情况下,Box 与 Cox 提出当 H0 成立时,该统计量服从自由度为 1 的卡方分布。基于上述构造,当我们拒绝原假设时,我们应该选择对数模型 Model II,而当我们无法拒绝原假设时,我们应选用线性模型Model I。

更进一步对于具有偏态的被解释变量 y 时,我们也可以采用 Box-Cox 提出的确定最优 λ 的方法,利用 Box-Cox 变换使 y(λ) 更接近正态分布,此时对于线性模型而言会具有更好的准确度和更小的方差。

也许你已经从 2.3 中隐隐发现了对于两个备选模型,当我们在构造 Antilog R-squared 时,具体的做法是将 Model II 的拟合值的指数对 Model I 的真实值进行回归,同时将 Model I 的拟合值的对数对 Model II 的真实值进行回归。

上述回归方法,在对 Model I 进行验证时利用了 Model II 的水平拟合值,并通过 Antilog R-Squared 反映出来的 Model II 能否捕捉 Model I 原始样本数据 y 中的大部分信息来进行选择。反之对 Model II 进行验证的方法类似,使用了 Model I 的对数值。

​一言以蔽之,Antilog R-Squared 方法是“你中有我,我中有你”交互融合来进行比较。下面将介绍的 Bera-McAleer(BM) Test 与 Davidson-Mackinnon(DM) Test 也具有类似的特点。

2.5 Bera-McAleer (BM) Test

针对 Model I 与 Model II 进行 BM 检验的流程如下:

2.5.1 线性模型(Model I)

  • Step1:将 elny^ 对 x 进行无常数项回归,并记录所得的残差为 r^1
  • Step2:将 y 对 x 与 Step1 中所得的残差 r^1 进行无常数项回归;
  • Step3:对 Step2 中 r^1 的系数 γ1 统计显著性进行假设检验。

2.5.2 对数模型(Model II)

  • Step1':将 ln(y^) 对 x 进行无常数项回归,并记录所得的残差为 r^2
  • Step2':将 lny 对 x 与 Step1 中所得的残差 r^2 进行无常数项回归;
  • Step3':对 Step2 中 r^2 系数 γ2 的统计显著性进行假设检验。

Bera 与 McAleer 提出在进行上述流程的原始模型更优的原假设下,其系数 γ 的 F 统计量服从第一自由度为 1,第二自由度为 N-K-2 的 F 分布。于是当 Step3 中拒绝原假设时,意味着我们应该选择 Model II;而当 Step3' 中拒绝原假设时,我们应该选择 Model I。

2.6 Davidson-Mackinnon(DM) Test

类似地,Davidson 与 Mackinnon 提出的 DM 检验的流程也可表示如下:

2.6.1 线性模型(Model I)

  • Step1:基于 Model II 定义两个模型拟合值的差异 f2=lny^ln(y^)
  • Step2:基于 Model I 的水平值,将 y 对 x 与 f2 进行无常数项回归;
  • Step3:对 Step2 中 f2 系数 γ1 的统计显著性进行假设检验。

2.6.2 对数模型(Model II)

  • Step1':基于 Model I 定义两个模型拟合值的差异 f1=y^elny^
  • Step2':基于 Model II 的对数值,将 y 对 x 与 f1 进行无常数项回归;
  • Step3':对 Step2' 中 f1 系数 γ2 的统计显著性进行假设检验。

与 BM 检验的思路类似,Davidson 与 Mackinnon 指出在上述流程的原始模型更优的原假设下,其系数 γ 的 F 统计量同样服从第一自由度为 1,第二自由度为 N-K-2 的 F 分布。因此当 Step3 中拒绝原假设时,意味着我们应该选择 Model II;而当 Step3' 中拒绝原假设时,我们应该选择 Model I。

3. lmfreg 命令介绍

下面我们将结合上述理论的 Stata 应用,利用 Elmessih Shehata 与 Sahra Khaleel 编写的 lmfreg 命令来选择合适的模型。

3.1 lmfreg 命令安装

ssc install lmfreg, replace 

3.2 lmfreg 命令语法

lmfreg depvar indepvars [if] [in], [ noconstant coll]

其中,

  • depvar:模型的被解释变量 y
  • indepvars:模型的解释变量 x
  • nonconstant:指定回归为不含有常数项的回归;
  • coll:指定模型在回归时保留共线的变量。

3.3 lmfreg 命令示例

. use "http://fmwww.bc.edu/repec/bocode/l/lmfreg.dta", clear
. lmfreg y x1 x2

==============================================================================
* Ordinary Least Squares (OLS)
==============================================================================
  y = x1 + x2
------------------------------------------------------------------------------
  Sample Size       =          17
  Wald Test         =    273.3662   |   P-Value > Chi2(2)       =      0.0000
  F-Test            =    136.6831   |   P-Value > F(2 , 14)     =      0.0000
 (Buse 1973) R2     =      0.9513   |   Raw Moments R2          =      0.9986
 (Buse 1973) R2 Adj =      0.9443   |   Raw Moments R2 Adj      =      0.9984
  Root MSE (Sigma)  =      5.5634   |   Log Likelihood Function =    -51.6471
------------------------------------------------------------------------------
- R2h= 0.9513   R2h Adj= 0.9443  F-Test =  136.68 P-Value > F(2 , 14)  0.0000
- R2v= 0.9513   R2v Adj= 0.9443  F-Test =  136.68 P-Value > F(2 , 14)  0.0000
------------------------------------------------------------------------------
           y | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
          x1 |      1.062      0.267     3.98   0.001        0.490       1.634
          x2 |     -1.383      0.084   -16.50   0.000       -1.563      -1.203
       _cons |    130.707     27.094     4.82   0.000       72.595     188.818
------------------------------------------------------------------------------
==============================================================================
*** OLS Linear vs Log-Linear Functional Form Tests
==============================================================================
 (1) R-squared
      Linear  R2                   =    0.9513
      Log-Log R2                   =    0.9711
---------------------------------------------------------------------------
 (2) Log Likelihood Function (LLF)
      LLF - Linear                 =  -51.6471
      LLF - Log-Log                =  -47.5914
---------------------------------------------------------------------------
 (3) Antilog R2
      Linear  vs Log-Log: R2Lin    =    0.9649
      Log-Log vs Linear : R2log    =    0.9576
---------------------------------------------------------------------------
 (4) Box-Cox Test                  =    4.0556   P-Value > Chi2(1)   0.0440
      Ho: Choose Log-Log Model - Ha: Choose Linear  Model
---------------------------------------------------------------------------
 (5) Bera-McAleer BM Test
      Ho: Choose Linear  Model     =   11.9464   P-Value > F(1, 13)  0.0043
      Ho: Choose Log-Log Model     =    6.1092   P-Value > F(1, 13)  0.0280
---------------------------------------------------------------------------
 (6) Davidson-Mackinnon PE Test
      Ho: Choose Linear  Model     =   11.9462   P-Value > F(1, 13)  0.0043
      Ho: Choose Log-Log Model     =    6.1092   P-Value > F(1, 13)  0.0280
------------------------------------------------------------------------------

上述结果表明方法 (1)—(6) 均倾向于拒绝选择线性模型,故此时应选择对数模型即 lny=β1x1+β2x2+ε 进行回归。

. sysuse nlsw88, clear
. lmfreg wage hours ttl_exp tenure age

==============================================================================
* Ordinary Least Squares (OLS)
==============================================================================
  wage = hours + ttl_exp + tenure + age
------------------------------------------------------------------------------
  Sample Size       =        2227
  Wald Test         =    203.7791   |   P-Value > Chi2(4)       =      0.0000
  F-Test            =     50.9448   |   P-Value > F(4 , 2222)   =      0.0000
 (Buse 1973) R2     =      0.0840   |   Raw Moments R2          =      0.6764
 (Buse 1973) R2 Adj =      0.0824   |   Raw Moments R2 Adj      =      0.6758
  Root MSE (Sigma)  =      5.5240   |   Log Likelihood Function =  -6963.6318
------------------------------------------------------------------------------
- R2h= 0.0840   R2h Adj= 0.0824  F-Test =   50.94 P-Value > F(4 , 2222)0.0000
- R2v= 0.0840   R2v Adj= 0.0824  F-Test =   50.94 P-Value > F(4 , 2222)0.0000
------------------------------------------------------------------------------
        wage | Coefficient  Std. err.      t    P>|t|     [95% conf. interval]
-------------+----------------------------------------------------------------
       hours |      0.055      0.012     4.75   0.000        0.032       0.077
     ttl_exp |      0.285      0.032     8.97   0.000        0.223       0.347
      tenure |      0.037      0.026     1.41   0.159       -0.014       0.088
         age |     -0.121      0.039    -3.14   0.002       -0.197      -0.045
       _cons |      6.714      1.572     4.27   0.000        3.631       9.796
------------------------------------------------------------------------------
==============================================================================
*** OLS Linear vs Log-Linear Functional Form Tests
==============================================================================
 (1) R-squared
      Linear  R2                   =    0.0840
      Log-Log R2                   =    0.1725
---------------------------------------------------------------------------
 (2) Log Likelihood Function (LLF)
      LLF - Linear                 =-6963.6318
      LLF - Log-Log                =-5879.4299
---------------------------------------------------------------------------
 (3) Antilog R2
      Linear  vs Log-Log: R2Lin    =    0.0772
      Log-Log vs Linear : R2log    =    0.1629
---------------------------------------------------------------------------
 (4) Box-Cox Test                  = 1084.2019   P-Value > Chi2(1)   0.0000
      Ho: Choose Log-Log Model - Ha: Choose Linear  Model
---------------------------------------------------------------------------
 (5) Bera-McAleer BM Test
      Ho: Choose Linear  Model     =    0.2863   P-Value > F(1, 2221)0.5926
      Ho: Choose Log-Log Model     =    7.0295   P-Value > F(1, 2221)0.0081
---------------------------------------------------------------------------
 (6) Davidson-Mackinnon PE Test
      Ho: Choose Linear  Model     =    0.2863   P-Value > F(1, 2221)0.5927
      Ho: Choose Log-Log Model     =    7.0295   P-Value > F(1, 2221)0.0081
------------------------------------------------------------------------------

从上述检验结果比较可以发现方法 (1)—(3) 倾向于选择选择对数模型,(4)—(6) 倾向于选择线性模型。与 lmfreg 自带的数据集结果不同,此时不同方法给出了截然相反的模型选择策略,那么如果遇到这种情况,我们又该作何选择呢?

一般情况下,对工资、成绩、房价等被解释变量取对数能使得该变量的分布更趋近于正态分布,因此方法 (1) 和 (3) 中往往会出现 Log-Linear Model 更优的情况。而当方法 (4)—(6) 显著拒绝选择选择对数模型时,我们应对采用 R-Squared 与 LLF 得到的结论提出一定的质疑,到底是由于对数变换使得数据更加平滑,还是由于真实的模型更倾向于对数形式的解释变量,这一点结合从研究主题的有关理论和文献参考,综合考虑后再做出判断。

例如在研究影响房产价格的特征因素时,在经济学家 Sherwin Rosen 提出的 Hedonic 特征价格模型中,Rosen 对房价给消费者带来的效用建模,推导出消费者对特征房产的出价函数,再结合消费者效用最大化的一阶条件求解出均衡条件位于消费者出价曲线与特征价格函数相切处,此时模型均衡如下图所示:

从上述图像的性质可以发现,房产价格 P 与其特征向量集 Z 的函数关系应符合对数价格的变动,因此在研究 Hedonic 模型时应该采用对数 ln(price) 作为模型的被解释变量。

总而言之,利用 lmfreg 得到的检验结果仅仅是为模型选择提供了参考,在进行实证研究设定模型形式时不能忘记的是模型背后支撑的理论基础,同时我们在操作时也应适当参考有关论文的做法,以选择最合适的函数形式。

4. 参考资料

  • MacKinnon J G, White H, Davidson R. Tests for model specification in the presence of alternative hypotheses: Some further results[J]. Journal of Econometrics, 1983, 21(1): 53-70. -PDF-
  • Box G E P, Cox D R. An analysis of transformations[J]. Journal of the Royal Statistical Society: Series B (Methodological), 1964, 26(2): 211-243. -PDF-
  • Baltagi B H. Testing linear and loglinear error components regressions against Box-Cox alternatives[J]. Statistics & probability letters, 1997, 33(1): 63-68. -PDF-
  • Godfrey L G, Wickens M R. Testing linear and log-linear regressions for functional form[J]. The Review of Economic Studies, 1981, 48(3): 487-496. -PDF-

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 模型, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh