Stata连享会 主页 || 视频 || 推文 || 知乎 || Bilibili 站
温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
New!
lianxh
命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc
,ihelp
,rdbalance
,gitee
,installpkg
⛳ Stata 系列推文:
作者:陈宇灿 (中山大学)
邮箱:chenyc56@mail2.sysu.edu.cn
编者按:本文主要参考自下文,特此致谢!
Source:Shehata E, Mickaiel S. LMFREG: Stata module to Compute OLS Linear vs Log-Linear Functional Form Tests[J]. 2012. -Link-
目录
在利用 Stata 进行 OLS 回归分析时,模型设定常常有水平—水平、水平—对数、对数—水平、对数—对数四种形式。其中在对数形式的函数设定中,回归系数有弹性与半弹性的经济学含义。在实证研究中,研究者经常苦恼于如何选择合适的函数形式。
对于非嵌套模型,我们常常采用 RESET 检验以及比较调整 R-Squared 的方法来选择模型;而对于嵌套模型,我们常常利用 F 检验来进行模型选择。本文将结合 lmfreg
命令,全面地介绍 Linear Model 与 Log-Linear Model 模型设定的检验原理与 Stata 实操。
本文中研究的 Linear Model(Model I)为常规的线性模型,即回归方程如下所示:
Log-Linear Model(Model II)由下述方程所示:
假定以上模型均满足 Gauss-Markov 假定,扰动项
该方法的核心思想是比较两个模型的拟合优度,并选取模型拟合优度较大的作为最优选择。其中,拟合优度可由统计指标
如果考虑模型中解释变量
在解释变量个数不同的非嵌套模型中,常常使用
对数似然函数 (LLF) 源于极大似然估计 (Maximum Likelihood Estimation,MLE)。对于线性模型 (Model I),根据有关计量理论可以知道:当扰动项服从正态分布时,根据正态分布理论,在给定
进而根据似然的定义,我们可以得到对数似然函数 (LLF):
通过极大似然估计可以得到模型的 ML 估计量
对于具有对数形式被解释变量,Model II 的对数似然为:
基于 MLE 最大化似然函数的思想,我们可以从比较 LLF 的角度进行模型选择。基于更优的模型应具有更大的 LLF 这一推断,我们通过选择 LLF 较大的模型作为回归模型。
Antilog 顾名思义为反对数,换言之也就是指数 (exp)。从直观上看该方法的思想为利用 exp 与 log 的互逆关系构造相同水平上的回归方程进而计算拟合优度
基于 Model II 的拟合值,用
基于 Model I 的拟合值,用
再根据 2.1 中的思想,从备选模型中选择 Antilog-
Box-Cox Test 源于统计分析中著名的 Box-Cox 变换:
参数
该检验的原假设为:
在大样本的情况下,Box 与 Cox 提出当
更进一步对于具有偏态的被解释变量
也许你已经从 2.3 中隐隐发现了对于两个备选模型,当我们在构造 Antilog R-squared 时,具体的做法是将 Model II 的拟合值的指数对 Model I 的真实值进行回归,同时将 Model I 的拟合值的对数对 Model II 的真实值进行回归。
上述回归方法,在对 Model I 进行验证时利用了 Model II 的水平拟合值,并通过 Antilog R-Squared 反映出来的 Model II 能否捕捉 Model I 原始样本数据
一言以蔽之,Antilog R-Squared 方法是“你中有我,我中有你”交互融合来进行比较。下面将介绍的 Bera-McAleer(BM) Test 与 Davidson-Mackinnon(DM) Test 也具有类似的特点。
针对 Model I 与 Model II 进行 BM 检验的流程如下:
Bera 与 McAleer 提出在进行上述流程的原始模型更优的原假设下,其系数
类似地,Davidson 与 Mackinnon 提出的 DM 检验的流程也可表示如下:
与 BM 检验的思路类似,Davidson 与 Mackinnon 指出在上述流程的原始模型更优的原假设下,其系数
下面我们将结合上述理论的 Stata 应用,利用 Elmessih Shehata 与 Sahra Khaleel 编写的 lmfreg
命令来选择合适的模型。
ssc install lmfreg, replace
lmfreg depvar indepvars [if] [in], [ noconstant coll]
其中,
depvar
:模型的被解释变量 indepvars
:模型的解释变量 nonconstant
:指定回归为不含有常数项的回归;coll
:指定模型在回归时保留共线的变量。. use "http://fmwww.bc.edu/repec/bocode/l/lmfreg.dta", clear
. lmfreg y x1 x2
==============================================================================
* Ordinary Least Squares (OLS)
==============================================================================
y = x1 + x2
------------------------------------------------------------------------------
Sample Size = 17
Wald Test = 273.3662 | P-Value > Chi2(2) = 0.0000
F-Test = 136.6831 | P-Value > F(2 , 14) = 0.0000
(Buse 1973) R2 = 0.9513 | Raw Moments R2 = 0.9986
(Buse 1973) R2 Adj = 0.9443 | Raw Moments R2 Adj = 0.9984
Root MSE (Sigma) = 5.5634 | Log Likelihood Function = -51.6471
------------------------------------------------------------------------------
- R2h= 0.9513 R2h Adj= 0.9443 F-Test = 136.68 P-Value > F(2 , 14) 0.0000
- R2v= 0.9513 R2v Adj= 0.9443 F-Test = 136.68 P-Value > F(2 , 14) 0.0000
------------------------------------------------------------------------------
y | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
x1 | 1.062 0.267 3.98 0.001 0.490 1.634
x2 | -1.383 0.084 -16.50 0.000 -1.563 -1.203
_cons | 130.707 27.094 4.82 0.000 72.595 188.818
------------------------------------------------------------------------------
==============================================================================
*** OLS Linear vs Log-Linear Functional Form Tests
==============================================================================
(1) R-squared
Linear R2 = 0.9513
Log-Log R2 = 0.9711
---------------------------------------------------------------------------
(2) Log Likelihood Function (LLF)
LLF - Linear = -51.6471
LLF - Log-Log = -47.5914
---------------------------------------------------------------------------
(3) Antilog R2
Linear vs Log-Log: R2Lin = 0.9649
Log-Log vs Linear : R2log = 0.9576
---------------------------------------------------------------------------
(4) Box-Cox Test = 4.0556 P-Value > Chi2(1) 0.0440
Ho: Choose Log-Log Model - Ha: Choose Linear Model
---------------------------------------------------------------------------
(5) Bera-McAleer BM Test
Ho: Choose Linear Model = 11.9464 P-Value > F(1, 13) 0.0043
Ho: Choose Log-Log Model = 6.1092 P-Value > F(1, 13) 0.0280
---------------------------------------------------------------------------
(6) Davidson-Mackinnon PE Test
Ho: Choose Linear Model = 11.9462 P-Value > F(1, 13) 0.0043
Ho: Choose Log-Log Model = 6.1092 P-Value > F(1, 13) 0.0280
------------------------------------------------------------------------------
上述结果表明方法 (1)—(6) 均倾向于拒绝选择线性模型,故此时应选择对数模型即
. sysuse nlsw88, clear
. lmfreg wage hours ttl_exp tenure age
==============================================================================
* Ordinary Least Squares (OLS)
==============================================================================
wage = hours + ttl_exp + tenure + age
------------------------------------------------------------------------------
Sample Size = 2227
Wald Test = 203.7791 | P-Value > Chi2(4) = 0.0000
F-Test = 50.9448 | P-Value > F(4 , 2222) = 0.0000
(Buse 1973) R2 = 0.0840 | Raw Moments R2 = 0.6764
(Buse 1973) R2 Adj = 0.0824 | Raw Moments R2 Adj = 0.6758
Root MSE (Sigma) = 5.5240 | Log Likelihood Function = -6963.6318
------------------------------------------------------------------------------
- R2h= 0.0840 R2h Adj= 0.0824 F-Test = 50.94 P-Value > F(4 , 2222)0.0000
- R2v= 0.0840 R2v Adj= 0.0824 F-Test = 50.94 P-Value > F(4 , 2222)0.0000
------------------------------------------------------------------------------
wage | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
hours | 0.055 0.012 4.75 0.000 0.032 0.077
ttl_exp | 0.285 0.032 8.97 0.000 0.223 0.347
tenure | 0.037 0.026 1.41 0.159 -0.014 0.088
age | -0.121 0.039 -3.14 0.002 -0.197 -0.045
_cons | 6.714 1.572 4.27 0.000 3.631 9.796
------------------------------------------------------------------------------
==============================================================================
*** OLS Linear vs Log-Linear Functional Form Tests
==============================================================================
(1) R-squared
Linear R2 = 0.0840
Log-Log R2 = 0.1725
---------------------------------------------------------------------------
(2) Log Likelihood Function (LLF)
LLF - Linear =-6963.6318
LLF - Log-Log =-5879.4299
---------------------------------------------------------------------------
(3) Antilog R2
Linear vs Log-Log: R2Lin = 0.0772
Log-Log vs Linear : R2log = 0.1629
---------------------------------------------------------------------------
(4) Box-Cox Test = 1084.2019 P-Value > Chi2(1) 0.0000
Ho: Choose Log-Log Model - Ha: Choose Linear Model
---------------------------------------------------------------------------
(5) Bera-McAleer BM Test
Ho: Choose Linear Model = 0.2863 P-Value > F(1, 2221)0.5926
Ho: Choose Log-Log Model = 7.0295 P-Value > F(1, 2221)0.0081
---------------------------------------------------------------------------
(6) Davidson-Mackinnon PE Test
Ho: Choose Linear Model = 0.2863 P-Value > F(1, 2221)0.5927
Ho: Choose Log-Log Model = 7.0295 P-Value > F(1, 2221)0.0081
------------------------------------------------------------------------------
从上述检验结果比较可以发现方法 (1)—(3) 倾向于选择选择对数模型,(4)—(6) 倾向于选择线性模型。与 lmfreg
自带的数据集结果不同,此时不同方法给出了截然相反的模型选择策略,那么如果遇到这种情况,我们又该作何选择呢?
一般情况下,对工资、成绩、房价等被解释变量取对数能使得该变量的分布更趋近于正态分布,因此方法 (1) 和 (3) 中往往会出现 Log-Linear Model 更优的情况。而当方法 (4)—(6) 显著拒绝选择选择对数模型时,我们应对采用 R-Squared 与 LLF 得到的结论提出一定的质疑,到底是由于对数变换使得数据更加平滑,还是由于真实的模型更倾向于对数形式的解释变量,这一点结合从研究主题的有关理论和文献参考,综合考虑后再做出判断。
例如在研究影响房产价格的特征因素时,在经济学家 Sherwin Rosen 提出的 Hedonic 特征价格模型中,Rosen 对房价给消费者带来的效用建模,推导出消费者对特征房产的出价函数,再结合消费者效用最大化的一阶条件求解出均衡条件位于消费者出价曲线与特征价格函数相切处,此时模型均衡如下图所示:
从上述图像的性质可以发现,房产价格 P 与其特征向量集 Z 的函数关系应符合对数价格的变动,因此在研究 Hedonic 模型时应该采用对数 ln(price) 作为模型的被解释变量。
总而言之,利用 lmfreg
得到的检验结果仅仅是为模型选择提供了参考,在进行实证研究设定模型形式时不能忘记的是模型背后支撑的理论基础,同时我们在操作时也应适当参考有关论文的做法,以选择最合适的函数形式。
Note:产生如下推文列表的 Stata 命令为:
lianxh 模型, m
安装最新版lianxh
命令:
ssc install lianxh, replace
免费公开课
最新课程-直播课
专题 | 嘉宾 | 直播/回看视频 |
---|---|---|
⭐ 最新专题 | 文本分析、机器学习、效率专题、生存分析等 | |
研究设计 | 连玉君 | 我的特斯拉-实证研究设计,-幻灯片- |
面板模型 | 连玉君 | 动态面板模型,-幻灯片- |
面板模型 | 连玉君 | 直击面板数据模型 [免费公开课,2小时] |
⛳ 课程主页
⛳ 课程主页
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会-常见问题解答:
✨ https://gitee.com/lianxh/Course/wikis
New!
lianxh
命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh