Stata:何时使用线性概率模型而非Logit?

发布时间:2020-07-24 阅读 7186

Stata 连享会   主页 || 视频 || 推文

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

编译:张雪娇 (中山大学)
邮箱:hzhangxuejiao@163.com

来源: 连享会:Logit\Probit 推文系列


目录


2015 年 7 月,PAUL VON HIPPEL 列出了一些线性概率模型相对于 Logit (Logistic) 模型的优势。他认为,相比其他逻辑模型来说,线性模型更易于解释并且运行的更快,这对于处理数据集较大或复杂模型时就显得尤为重要。此外,线性概率模型通常与 Logistic 模型一样适用,因为在某些范围内概率 p 几乎与 logistic 回归中使用的对数概率函数 ln(p/(1p)) 线性相关。

以经验来看,他建议线性概率模型可以用于概率范围在 0.20 到 0.80 之间的模型。因为在此范围内,概率和对数概率几乎是线性相关的 (如图 1 所示)。Long (1997) 也曾给出过类似的建议。然而,事实上线性概率模型实际可行的应用范围比这更广。

图 1:The relationship between probability and log odds over the range of probabilities from .2 to .8
图 1:The relationship between probability and log odds over the range of probabilities from .2 to .8

例如,在 Joe Workman 和 Paul Von Hippel 发表的一篇新的论文中,他们应用多水平模型来研究幼儿园到二年级美国儿童肥胖情况发现:该年龄段的儿童肥胖可能性从0.09增加到了0.13。但由于这些概率小于0.20,你可能会猜测不能使用线性概率模型。但他们做到了并且线性模型还运行得很快,而 logistic 模型在多水平环境中反而运行的很慢。此外,线性模型也对结果给出了很好的解释;例如,作者在论文中写道“儿童肥胖的概率在夏天会每月增加大约1个百分点[^1]。” 并且我们在模型拟合方面也没有任何损失;线性模型实际上是和 logistic 模型适用范围是一样的,因为在在0.09到0.13的概率范围内,概率几乎与其对数概率成线性关系(如图2所示)。

图 2:The relationship between probability and log odds over the range of probabilities from 0.09 to 0.13
图 2:The relationship between probability and log odds over the range of probabilities from 0.09 to 0.13

最基本的观点是,只要概率和其对数概率的关系在模型应用的概率范围内是近似线性的,那么就可以使用线性概率模型。在0.2到0.8之间的概率只是使得近似线性关系可以成立的其中一个范围,有时也某些小于0.2或大于0.8的狭窄范围也是适用线性概率模型的。

当概率与对数概率之间的关系是非线性时,仍然存在线性概率模型可行的情况。例如,如果你的回归量x是分类变量,那么你其实并不是在为一个连续的概率函数建模。相反,你正在建模的是与X相关的其他类别离散概率,这可以用线性模型和 Logistic 模型来实现,尤其是模型中包含X变量的交互项时( Angrist & Pischke, 2008, chapter 3; Pischke, 2012 )。

但是我不认为线性概率模型总是可行的。有时我的确使用 Logistic 模型。例如,通过查看来自 Belmont Stakes 30 年来的赛马数据,我发现爱马受惊被扰乱的概率与开始比赛时参赛马的数量密切相关。开始时参赛的马越多,其中一匹就越有可能干扰爱马的可能性就越大(如图3所示)。

图 3:The relationship between the number of horses starting the Belmont Stakes and the probability that the favorite will be upset
图 3:The relationship between the number of horses starting the Belmont Stakes and the probability that the favorite will be upset

在概率数量级上,这种关系是强非线性的。这种强非线性关系几乎概率涵盖了从0到1的整个范围。所以线性概率模型不能很容易地拟合这些数据。当作者出于好奇尝试着用线性模型时发现,某些模型的概率超出了上界1。我可以通过找到x变量的某种非线性变换来改进线性模型的拟合程度。但是找到正确的变换并不容易,而且即使找到了它,线性模型的易解释性也会丧失。相比之下拟合一个本身就可以保持概率有界的 Logistic 模型更简单。

为了检验数据是否适用于线性概率模型的一个基本诊断方法就是,在数据可行的概率范围内绘制概率和对数概率之间的关系。如果关系如图1和图2所示是接近线性的,那么线性概率模型将与 Logistic 模型一样适用,并且线性模型可以运行的更快且更易于解释结果。但是如果关系呈现如图3所示很强的非线性的,那么线性模型可能不适合,除非变量 X 是离散的分类变量。

概率与对数概率的关系很容易通过各种软件绘制出来。例如,在 Stata 中可以通过如下所示的命令绘制除图1所示的关系图:

twoway function y=ln(x/(1-x)), range(.2 .8) ///
     xtitle(“Probability”) ytitle(“Log odds”)

同样的,我使用相同的命令绘制出图2,只将范围更改为(.09.13)如下:

twoway function y=ln(x/(1-x)), range(.09.13)  ///
     xtitle(“Probability”) ytitle(“Log odds”)

在某些情况下,概率和其对数概率函数之间的关系只是轻微的非线性并非强非线性。那么你将面临一个权衡取舍,实际上你对模型的选择将取决于你设定的研究目标。如果你主要想要的是对关系的大致清晰的概括,那么你可能愿意容忍一些错误,并使用一个快速运行的线性模型从而给出易于解释的系数。但是如果你想要获得一个准确的概率,那么你可能愿意牺牲模型运行时间和系数的可解释性来获得一个更好的概率估计。例如,作者 Paul Von Hippel 开发了一个金融风险模型来预测交易欺诈或借款人违约的发生可能性。在这种情况下系数就不是考虑的焦点,而是需要模型为单个交易或借款人分配一个准确的违约概率。而线性模型在风险控制模型涵盖的概率范围内的表现通常很差。那么 Logistic 模型就自然是一个更好的选择,尽管我们也会使用如,神经网络或决策树这类其他非线性模型。

参考文献

  1. Angrist, J. D., & Pischke, J.-S. (2008). Mostly Harmless Econometrics: An Empiricist’s Companion (1st ed.). Princeton University Press.
  2. Long, J. S. (1997). Regression Models for Categorical and Limited Dependent Variables (1st ed.). Sage Publications, Inc.
  3. Pischke, J.-S. (2012, July 9). Probit better than LPM? Retrieved from http://www.mostlyharmlesseconometrics.com/2012/07/probit-better-than-lpm/
  4. von Hippel, P.T. & Workman, J. (2016). From Kindergarten Through Second Grade, U.S. Children’s Obesity Prevalence Grows Only During Summer Vacations. Obesity Volume 24, Issue 11, pages 2296–2300. http://onlinelibrary.wiley.com/doi/10.1002/oby.21613/full

[^1]: von Hippel, Paul T., and Joseph Workman. "From kindergarten through second grade, US children's obesity prevalence grows only during summer vacations." Obesity 24.11 (2016): 2296-2300.

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看,所有课程可以随时购买观看。

专题 嘉宾 直播/回看视频
最新专题 DSGE, 因果推断, 空间计量等
Stata数据清洗 游万海 直播, 2 小时,已上线
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,300+ 推文,实证分析不再抓狂。
  • 公众号推文分类: 计量专题 | 分类推文 | 资源工具。推文分成 内生性 | 空间计量 | 时序面板 | 结果输出 | 交乘调节 五类,主流方法介绍一目了然:DID, RDD, IV, GMM, FE, Probit 等。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会学习群-常见问题解答汇总:
https://gitee.com/arlionn/WD