Stata:如何正确检验U型关系的存在

发布时间:2022-02-15 阅读 20258

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:韩文轩 (广西大学)
邮箱WX_Han1206@163.com

编者按:本文主要摘译自下文,特此致谢!
Source:Simonsohn U, Nelson L. Thirty-somethings are shrinking and other U-shaped challenges. 2014. -Link-


目录


1. 引言

在实证研究中,倒 U 型关系是非线性关系中较为常见的一种关系。为了验证倒 U 型关系的存在,研究人员在回归模型中加入解释变量的平方项,并通过二次项系数是否显著、以及二次项系数与一次项系数是否异号确定倒 U 型关系。

实际上,这种方法存在一定的缺陷。为了解决这个问题,Simonsohn 和 Nelson (2014) 提出了一种改进方法来确定倒 U 型关系的存在。本文的主要目的是介绍这种方法并结合案例加以说明。

2. 传统倒 U 型关系的检验方法

2.1 检验方法

关于倒 U 型关系,很多文献都是按照以下四个步骤进行检验:

  • 构造回归模型 y=β0+β1x+ϵ,进行普通的线性回归;
  • 在回归模型中加入平方项,即 y=β0+β1x+β2x2+ϵ,进行二次回归;
  • 根据回归结果判断回归模型中二次项系数 β2 的显著性。如果 β2 显著,且 β1 与 β2 异号,那么倒 U 型关系存在;
  • 绘制图像进行辅助验证。

以 Swaab 等 (2014) 的论文为例,该研究发现在 NBA 比赛中,球队天赋与球队表现之间存在倒 U 型关系。起初,球队表现随着球队中天赋球员的增加而提升,在到达某一点后,球队表现却随着天赋球员的增加而变差。

上图报告了 NBA 比赛中球员天赋对球队表现回归结果。在 Model1 中,作者先进行了普通的线性回归,回归结果显示球队表现与球队天赋的线性关系是正向且显著的。在 Model 2 中,作者在回归模型中加入解释变量的平方项。回归结果显示 TalentTalent-squard 的回归系数异号且显著。因此,作者推断在 NBA 比赛中,球队天赋和球队表现之间存在倒U型关系。

为了增强说服力,作者还绘制图像进行辅助验证。上图展示了球员天赋与球队表现的拟合曲线。

2.2 检验方法的不足之处

仅依靠解释变量的二次项来判断 U 型关系是有问题的。因为 U 型关系随处可见,甚至在 U 型不存在的地方也可以看见。以身高和年龄为例:

从上图的散点来看,人的身高在一定年龄以后保持不变。但是根据拟合曲线显示,人的身高一开始随着年龄的增加而增长,在 27 岁以后人的身高会变矮,即年龄和身高之间存在倒 U 型关系。

类似的情况还有年均收入和收入者的百分位数。根据散点的分布情况可知,收入者所在的百分位越高,平均工资越高。但是从拟合的曲线来看,年均收入和收入者的百分位数是 U 型关系。

从上面两个例子,我们发现按照传统的方法检验倒 U 型关系的存在性会得出错误的结论。问题的根源是我们用回归尽可能地去接近数据 (也就是上图中蓝色的点),但是却忽略了变量之间隐含的真实关系。因此,U 型关系能够推出解释变量的二次项系数显著,但是解释变量的二次项系数显著不能推出 U 型关系。

当然,绘图能够避免这类问题的出现。但是绘图只是必要手段,它不能有效地推导出倒 U 型关系。因为有时候,如果数据太少或者太多,也不能帮助我们判断 U 型关系是否存在。

以上图为例,左右两幅图分别代表了数据过多和过少的情形,这些图可能暗含 U 型关系,但是我们很难分辨平方项是否为干扰项。

在大量数据的基础上,我们希望说:“正如预测的那样,被解释变量和解释变量是 U 型关系,p=0.002”。但是我们并不能从上图直接推导出这样的结论。因此,我们需要一种更为简单有效的方法能够基于二次回归确定倒 U 型关系的存在。

关于传统倒 U 型检验方法的更多问题,详见连享会推文「平方项=倒U型」

3. 基于二次回归确定倒 U 型的检验方法

检验倒 U 型关系的基本思想是:起初 y 随 x 的增加而增加,但最终 y 随 x 的增大而减少。基本步骤如下:

  • 根据原始数据绘制图形;
  • 进行二次回归 y=ax+bx2,通过回归结果判断 a 和 b 的值是否异号且显著;
  • 寻找断点:如果 a 和 b 的值异号且显著,我们找到 U 型达到最大时的 x 值,记该点为 xmax。由于检验方法是基于二次回归进行的,xmax=a/2b
  • 创建新的变量:生成 xlowxhigh 和 high 三个新的变量。变量具体定义如下:
  • 进行断点回归:y=cxlow+dxhigh+ehigh。如果 c 和 d 异号且显著,那么 y 和 x 存在倒 U 型关系;
  • 绘制图像辅助验证。

4. Stata 实例

Aghion 等 (2005) 研究了竞争与创新的 U 型关系。在这里,我们将以这篇论文的数据例,重新检验竞争与创新的倒 U 型关系。

. lxhuse abbgh_data.dta, clear
. /*
> patcw 被解释变量 Innovation
> Lc 解释变量 Competition
> yr* 是年份固定效应
> iii* 是行业固定效应
> */
. global Xex "yr* iii*"

Step 1:画出图像

. egen p10 = pctile(patcw), p(10)
. egen p90 = pctile(patcw), p(90)
. sort Lc  
. twoway scatter patcw Lc if patcw<p90&patcw>p10, ///
>     xlabel(0.85(0.05)1.00) ylabel(0(5)20)       ///
>     xtitle("Competition(1-Lerner)") ytitle("Innovation(# of Patents)") ///
>     msymbol(oh) mcolor(gray) || qfit patcw Lc

从上图中的散点和拟合曲线来看,被解释变量创新和解释变量竞争之间是非线性关系。其中拟合曲线的形状类似倒 U 型,但是仅仅依靠图像判定倒 U 型关系并不可靠。因此,我们在回归模型中加入平方项并进行进一步的检验。

Step 2:进行二次回归

. poisson patcw Lc Lc_2 $Xex

Poisson regression                                     Number of obs =     354
                                                       LR chi2(39)   = 2804.51
                                                       Prob > chi2   =  0.0000
Log likelihood = -734.48398                            Pseudo R2     =  0.6563
------------------------------------------------------------------------------
       patcw | Coefficient  Std. err.      z    P>|z|     [95% conf. interval]
-------------+----------------------------------------------------------------
          Lc |    387.463     67.741     5.72   0.000      254.693     520.233
        Lc_2 |   -204.549     36.169    -5.66   0.000     -275.439    -133.659
         yr1 |      0.211      0.136     1.56   0.120       -0.055       0.477
 			   (omitted)
       iii16 |     -3.804      0.408    -9.33   0.000       -4.603      -3.004
       _cons |   -180.858     31.733    -5.70   0.000     -243.053    -118.662
------------------------------------------------------------------------------

. gen curveindyear = exp(_b[_cons] + _b[Lc]*Lc + _b[Lc_2]*Lc_2 )
. lab var curveindyear "Fitted exponential quadratic"

由回归结果可知,LcLc_2 的回归系数分别为 387.463 和 -204.549,回归系数异号且显著。我们可以初步判定创新和竞争之间存在倒 U 型关系,但仍然需要进行后续检验。

Step 3:找到倒 U 型曲线的最大值点

. gen a =_b[Lc] 
. gen b =_b[Lc_2]
. gen Lcmax=-a/(2*b)

Step 4:在 xmax 处产生新的预测值

. gen Lclow=0
. replace Lclow=Lc-Lcmax if Lc<Lcmax
. gen Lchigh=0
. replace Lchigh=Lc-Lcmax if Lc>Lcmax
. gen high=0
. replace high=1 if Lc>Lcmax

Step 5:进行断点回归

. poisson patcw Lclow Lchigh high $Xex

Poisson regression                                     Number of obs =     354
                                                       LR chi2(40)   = 2797.51
                                                       Prob > chi2   =  0.0000
Log likelihood = -737.98783                            Pseudo R2     =  0.6546
------------------------------------------------------------------------------
       patcw | Coefficient  Std. err.      z    P>|z|     [95% conf. interval]
-------------+----------------------------------------------------------------
       Lclow |      9.041      2.440     3.71   0.000        4.259      13.822
      Lchigh |     -9.778      3.333    -2.93   0.003      -16.310      -3.246
        high |      0.080      0.078     1.04   0.300       -0.072       0.232
         yr1 |      0.210      0.136     1.54   0.124       -0.058       0.477
                 (omitted)
       iii16 |     -3.798      0.408    -9.31   0.000       -4.597      -2.998 
       _cons |      2.651      0.126    21.02   0.000        2.404       2.899
------------------------------------------------------------------------------

. gen curvex=exp(_b[_cons] + _b[Lclow]*Lclow + _b[Lchigh]*Lchigh + _b[high]*high)
. lab var curvex " Fitted interrupted regression"

由回归结果可知,LclowLchigh 的系数分别为 9.041 和 -9.778,异号且显著,可以认为竞争和创新之间存在倒 U 型关系。

Step 6:绘制图像

. twoway scatter patcw Lc if patcw<p90&patcw>p10, ///
>     xlabel(0.85(0.05)1.00) ylabel(0(5)20)       ///
>     xtitle("Competition(1-Lerner)") ytitle("Innovation(# of Patents)") ///
>     msymbol(oh) mcolor(gray) title("Citation weighted patents")        ///
>     xline(0.9471159, lpattern(dash) lcolor(green))                     ///
>     || line curveindyear Lc, color(blue) || line curvex Lc, color(red) 

综合断点回归结果和图像,我们可以确认,在数据范围内竞争和创新之间存在倒 U 型关系。

5. 参考文献

  • Simonsohn U, Nelson L. Thirty-somethings are shrinking and other U-shaped challenges. 2014. -Link-
  • Swaab R I, Schaerer M, Anicich E M, et al. The too-much-talent effect: Team interdependence determines when more talent is too much or not enough[J]. Psychological Science, 2014, 25(8): 1581-1591. -PDF-
  • Aghion P, Bloom N, Blundell R, et al. Competition and innovation: An inverted-U relationship[J]. The quarterly journal of economics, 2005, 120(2): 701-728. -PDF-

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh U型, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh