Logit-Probit中的交乘项及边际效应图示

发布时间:2021-03-21 阅读 3323

Stata连享会   主页 || 视频 || 推文 || 知乎

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh

课程详情 https://gitee.com/arlionn/Course   |   lianxh.cn

课程主页 https://gitee.com/arlionn/Course

作者:祁本章 (中山大学)
邮箱2833210042@qq.com

编者按:本文主要摘译自下文,特此致谢!

[1] Ai C, Norton E C. Interaction terms in logit and probit models[J]. Economics letters, 2003, 80(1): 123-129. -PDF-

[2] Norton E C, Wang H, Ai C. Computing interaction effects and standard errors in logit and probit models[J]. The Stata Journal, 2004, 4(2): 154-167. -PDF-


目录


1. 引言

学者通常会使用交互项来估计某个变量对自变量和因变量间关系的影响。并且,这种交互项估计也更多停留在线性模型下,对于非线性模型,学者在应用上仍存在较大误区。为更好理解交互项、以及其在 Logit 和 Probit 模型中应用,本文将简要介绍 Ai 和 Norton (2003)、Norton 等 (2004) 的论文。在此基础上,具体介绍 Stata 相关命令和案例应用。

2. Ai 和 Norton (2003)

2.1 线性模型交互项

在线性模型中,对交互项系数的解释是直接的。设连续因变量 y 依赖于两个自变量 x1 和 x2,它们之间的交互项 X,一个包含与 x1 和  x2 无关的常数项的附加自变量向量,以及 βs 是未知参数。如果 x1 和  x2 是连续的,自变量 x1 和 x2 的交互效应是 y 的期望值的交叉导数。等式如下:

如果 x1 和 x2 是二分的,那么 x1 和  x2 从 0 到 1 变化的交互效应可以通过取离散差得到。等式如下:

如果 X 独立于 x1 和 x2,那么自变量 x1 和 x2 的交互作用对于连续和离散交互变量都是 β12 。交互效应的统计显著性可用系数 β12 的单次 t 检验进行检验。

2.2 非线性模型交互项

非线性模型和线性模型不同,例如,除了因变量 y 是虚拟变量,其他均类似于上例的模型。因变量的条件平均值为:

其中,Φ 是标准正态累积分布。假设 x1 和 x2 是连续的,交互项 x1x2 的交互效应是 y 期望值的交叉导数。结果如下:

然而,大多数应用经济学家计算的是交互项的边际效应,即:

很明显, β12Φ() 不等于真正的交互效应。

这些方程对于非线性模型有四个重要的含义:

  • 即使 β12 =0,交互效应也可能是非零的。而对于 β12=0 的 Probit 模型,交互效应为:
  • 交互效应的统计显著性不能用交互项系数 β12 的简单 t 检验来检验;
  • 与线性模型中的交互作用不同,在一个非线性模型中,单个不可分割变量的交互效应是以自变量为条件的;
  • 对于不同的协变量值,交互效应可能有不同的符号。因此,β12 的符号并不一定表示交互效应的符号。

2.3 推导与估计

为了更好地改进应用计量经济学者的实践,论文中推导了一般非线性模型中交互效应的大小和标准误差的公式。这些公式很容易应用于 Logit、Probit 和其他非线性模型。

设 y 表示原始因变量,向量 x 为自变量的 k×1 向量,所以 x=(x1xk),给定 x 的 y 的期望值为:

其中,函数 F 到 β 已知,并且是两次连续可微的。让 Δ 表示差分算子或导数算子,这取决于回归系数是离散的还是连续的。

本文的重点是通过计算交叉导数(或差分)来发现交互效应,而不仅仅是通过观察交互项上的系数。x1 和 x2 对 y 的交互效应是:

其估计值设为:

β^ 为 β 的一致估计量,F 的连续性和 β^ 的一致性确保了 μ^12 对 μ12 的一致性。而对于估计值 μ^12 的标准误,通过 Delta 方法可得公式如下:

而 μ^12 的渐进方差的一致估计为:

Ω^β2 是 β^ 的一致协方差估计。t 统计量为 t=μ^12σ^12,且在某些正则条件下,t 统计量具有渐近标准正态分布。对于给定的 x,使用 t 统计量检验交互作用效应等于零的假设。这些公式包括许多常用模型,包括 Logit、Probit、Tobit、删失回归模型、带正态误差的对数变换模型、计数模型和持续时间模型。

3. Norton 等 (2004)

3.1 Logit 模型

在 Logit 模型中,F(u) 是常见的 Logit 累积分布函数:

当交互作用变量都是连续变量时,交互效应是相对于 x1 和 x2 的交叉导数:

当交互变量均为虚拟变量时,交互效应为离散双差:

当一个连续变量和一个虚拟变量相互作用时,相互作用效应是单个导数 (相对于 x1) 的离散差 (相对于 x2 ):

3.2 Probit 模型

对于 Probit 模型,F(u) 是常见的正态累积分布函数:

当相互作用的变量都是连续的时,相互作用效应是相对于 x1 和 x2 的二次导数:

当交互变量均为虚拟变量时,交互效应为离散双差:

当一个连续变量和一个虚拟变量相互作用时,交互效应是单个导数 (相对于 x1) 的离散差 (相对于 x2):

4. Stata 命令

命令安装

search inteff

命令语法

inteff varlist [if exp] [in range] [, savedata(filename[, replace]) savegraph1(filename[, replace]) savegraph2(filename[, replace])]

其中,varlist 必须与 Logit 或 Probit 模型相同,并且至少要包含 4 个变量。并且前 4 个变量的顺序必须是因变量、自变量 1、自变量 2 和自变量 1、2 间的交互项。

savedata(filename[, replace]) 指定保存数据的名称。这里的数据主要包括以下五个变量:

  • 预测概率
  • 交互效应 (用常规线性方法计算)
  • 交互效应 (按本文建议的方法计算)
  • 交互效应的标准差
  • 交互效应的 z 统计量

savegraph(filename[, replace]) 指定保存图的名称。inteff 命令生成两个散点图:

  • 第一个图描绘了两种交互效应 (一个是用本文建议的方法计算的,另一个用传统的线性方法计算) 与预测概率的统计关系;
  • 第二个图形绘制交互效应中的 z 统计量与预测概率的统计关系。

inteff 命令有两个限制:

  • 只适用于 Logit 和 Probit 模型,无法适用于所有非线性模型,比如 Tobit 和 Count 模型;
  • 此外,该命令仅适用于没有高阶项的两个变量间的相互作用。

5. 应用实例

该论文用两个例子来说明 inteff 命令的使用,并且都使用了 2000 年医疗支出小组调查的数据。在该研究中,因变量是在 2000 年是否有过办公室医生就诊。但是,由于本文没有找到案例数据,因此这里仅仅是对原文结果进行描述。

5.1 Logit 模型应用

第一个例子包括年龄和受教育年限之间的交互作用,两者都是连续变量。同时,在该例中,模型还控制了种族、婚姻状况、收入、健康状况和地理区域 (由全局变量 $x 汇总),但为了简洁起见,没有报告这些变量的结果。

. logit $y age educ ageeduc male ins_pub ins_uni $x, nolog cluster(pid)

Logit estimates                                  Number of obs = 12365                                                    Wald chi2(23) = 9745.78
                                                 Prob >chi(23) = 0.0000
Log pseudo-likelihood = -6889.3644               Pseudo R2     = 0.1189
                        (standard errors adjusted for clustering on pid)
 
--------+------------------------------------------------------------------
opvisits| Coef.  Robust Std.Err  z  P>|z|  [95%Conf.Interval]
     age| .0419025  .0070434   5.95 0.000  .0280977  .0557073
    educ|  .127117  .0236365   5.38 0.000  .0807903  .1734437
 ageeduc|-.0013739  .0005168  -2.66 0.008 -.0023869 -.0003609
    male|-.9765431  .0348741 -28.00 0.000 -1.044895  -.908191
 ins_pub| .5829237  .1043102   5.59 0.000  .3784794   .787368
 ins_uni|-.8781526  .0541354 -16.22 0.000  -.984256 -.7720491
 (output omitted )
   _cons|-1.559739  .3379041  -4.62 0.000 -2.222019 -.8974595
--------+------------------------------------------------------------------ 

在运行 Logit 模型之后,我们使用相同的变量列表调用 inteff 命令,并保存数据。

inteff $y age educ ageeduc male ins_pub ins_uni $x, ///
   savedata(d:\data\logit_inteff,replace)           ///
   savegraph1(d:\data\figure1, replace)             ///
   savegraph2(d:\data\figure2, replace)
Logit with two continuous variables interacted
file d:\data\logit_inteff.dta saved
(file d:\data\figure1.gph saved)
(file d:\data\figure2.gph saved)

Variable  |  Obs     Mean    Std.Dev.     Min        Max
----------+------------------------------------------------------------------
_logit_ie | 12365 -.0003334  .0001145  -.0005798   .0001607
_logit_se | 12365  .0001003  .0000311   4.81e-06    .000323
_logit_z  | 12365 -3.401374  1.245229  -6.228868   7.130231
图 1-a
图 1-a
图 1-b
图 1-b

可以看出,年龄和受教育年限不仅在传统水平上具有统计学意义,而且它们之间的交互效应也具有统计学意义 (z 统计量为 −2.66)。这意味着年龄较大、受教育年限较长的人在一年中更有可能进行办公室访问。

但是,在运行 inteff 命令之后,我们了解到平均交互效应为负 (−0.0003334) 且变化很大。对于某些观察值,交互效应是积极的,而对于其他观察值,则是消极的 (参见图 1-a 和图 1-b)。

这证明了交互效应也取决于其他协变量。在这个例子中,对于那些预测有医生就诊的概率在 0.2 左右的人 (图 1-a 的左端),年龄和受教育年限之间的交互效应对他们一半是正的,一半是负的。如果我们看图 1-a 的右边,对于那些预测有医生就诊的概率在 0.8 左右的人,它们的交互效应都是负的。

就交互作用的显著性而言,对于预测概率约为 0.2 的人群,只有少数人具有统计上显著的交互作用。另一方面,对于预测概率在 0.8 左右的人群,交互效应最为显著。

5.2 Probit 模型应用

第二个例子包括性别和保险状况之间的相互作用。其他设定与 Logit 模型类似。

. probit $y male ins_uni male_uni age educ ins_pub $x, nolog cluster(pid)  

Probit estimates                                 Number of obs = 12365                                                    Wald chi2(23) = 9391.46
                                                 Prob >chi(23) = 0.0000
Log pseudo-likelihood = -6897.391                Pseudo R2     = 0.1179
                        (standard errors adjusted for clustering on pid)
 
--------+------------------------------------------------------------------
opvisits| Coef.  Robust Std.Err z    P>|z|   [95%Conf.Interval]
    male|-.5922717  .0240826 -24.59  0.000  -.6394726 -.5450707
 ins_uni|-.5653776  .0482592 -11.72  0.000  -.6599639 -.4707912
male_uni| .0539772  .0605362   0.89  0.373  -.0646716  .1726261
     age| .0146619  .0012311  11.91  0.000   .0122489  .0170749
    educ| .0407643  .0047575   8.57  0.000   .0314397  .0500888
 ins_pub| .3275272  .0608681   5.38  0.000   .2082279  .4468265
 (output omitted )
   _cons|-.4692864  .0889194  -5.28  0.000  -.6435652 -.2950076
--------+------------------------------------------------------------------ 

使用相同的变量列表调用 inteff命令,并保存数据。

inteff $y male ins_uni male_uni age educ ins_pub $x, ///
   savedata(d:\data\probit_inteff, replace)          ///
   savegraph1(d:\data\figure3, replace)              ///
   savegraph2(d:\data\figure4, replace)
Probit with two dummy variables interacted
file d:\data\probit_inteff.dta saved
(file d:\data\figure3.gph saved)
(file d:\data\figure4.gph saved)

Variable  |  Obs     Mean    Std.Dev.     Min        Max
----------+------------------------------------------------------------------
_probit_ie| 12365 -.0092839  .0294776  -.0578116  .0829161
_probit_se| 12365  .0218298  .0023465   .0046057  .0314373
_probit_z | 12365 -.5169928  1.522319  -5.561593  5.530833
图 2-a
图 2-a
图 2-b
图 2-b

在这个例子中,与以往不同的是,男性和未参保者之间的交互效应在统计学上并不显著。在线性模型中,我们可以从这样的结果得出交互效应的影响基本上是零的结论。然而,在非线性问题中,我们发现统计显著性范围很广。

尽管交互项上的系数缺乏统计显著性,但充分的交互效应很大,并且对许多观察结果具有统计显著性 (见图 2-a 和图 2-b)。这再次表明,交互效应不等于交互项的边际效应,只看结果表可能会产生误导。

6. 总结

在非线性模型中,交互效应的计算和解释非常复杂,并且不等于其交互项的边际效应。相反,交互效应需要计算交叉导数或交叉差分,且交互作用效应的统计显著性差异很大,需要结合实际问题分析。可以用 inteff 命令计算 Logit-Probit 模型,但在使用时要注意使用条件。

7. 参考资料

  • Mello M M, Stearns S C, Norton E C. Do Medicare HMOs still reduce health services use after controlling for selection bias?[J]. Health Economics, 2002, 11(4): 323-340. -PDF-
  • Ai C, Norton E C. Interaction terms in logit and probit models[J]. Economics letters, 2003, 80(1): 123-129. -PDF-
  • Norton E C, Wang H, Ai C. Computing interaction effects and standard errors in logit and probit models[J]. The Stata Journal, 2004, 4(2): 154-167. -PDF-
  • Zhou, Xianbo, and Heyang Li. 2021. “Interaction and Quadratic Effects in Probit Model with Endogenous Regressors.” Economics Letters 198: 109695. -PDF-

8. 相关推文

Note:产生如下推文列表的命令为:
lianxh 调节 u型 交乘 交叉
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

连享会-直播课 上线了!
http://lianxh.duanshu.com

免费公开课:


课程一览

支持回看

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]

Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。


关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。直播间 有很多视频课程,可以随时观看。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会主页  lianxh.cn
连享会主页 lianxh.cn

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh