domin:哪个自变量更重要?相对重要性分析最新命令

发布时间:2021-08-22 阅读 249

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者:杨雨萱 (中山大学)
邮箱yangyuxuanxuan1994@163.com


目录


1. 相对重要性

在多元回归模型中,如何清楚地知道哪个自变量对因变量的解释贡献更大,或者哪个自变量更加重要?

在理想的情况下,各个自变量之间没有相关性 (或者相关性极小),当各个回归系数都是标准化的时候,其相对重要性就是标准化回归系数的平方。当然,我们也可以使用传统的偏回归系数、标准回归系数、半偏相关系数等指标判断自变量与因变量的关联程度和相对贡献比例。但当两个自变量或者多个自变量之间存在相关关系时,特别是涉及多重共线时,基于最小二乘法建立线性回归模型的误差增大,导致回归系数的稳定性变差,因此继续使用传统指标作为变量重要性的度量则会存在问题。

2. 优势分析法

2.1 方法简介

在大多数情况下,各个自变量之间存在着不能忽略的相关性,这个时候各自变量重要性的比较就不能依靠传统指标度量。此时,必须寻找一种新的方法来进行重要性分析。具体来说,一种确定变量相对重要性的方法需要满足以下三个条件:

  • 重要性应根据自变量在预测因变量时对于误差减少的贡献来测量;
  • 应该能够对自变量的相对重要性作直接比较而非推断比较;
  • 重要性应该能够直接反映直接效应 (自变量的单独效应)、总效应 (纳入其他所有变量)、偏效应 (纳入其他部分变量)。

第一个条件明确地将重要性等同于预测或减少误差,这似乎是社会科学中最普遍和最流行的解释。第二个条件引出了一种机制,用于区分可以根据重要性对变量进行排序的情况和不能根据重要性对变量进行排序的情况。第三个条件概述了与重要性相关的减少误差的三个组成部分,即直接、部分和全部。

优势分析法 (DA) 是 Budescu (1993) 提出来的一种估计具有相关关系自变量相对重要性的统计方法。该方法介绍了决定自变量排秩的方法和各自变量相对重要性的定量估计方法,并通过比较在所有可能子模型情况下,各个自变量解释因变量变异的方差比例来估计自变量的相对重要性。其基本思想为:

设有一对随机变量 xi 和 xj,让 xh 表示剩下的 P2 个变量 (不包括 xi 和 xj) 的任何一个子集。如果添加 xi 到所有 2P2 个子模型的贡献增量都大于添加 xj 时的贡献增量,则变量 xi 相比于 xj 是优势变量,即变量 xi 比 xj 更重要。优势是成对的关系,如果全模型包括 P 个自变量,那么就有 P(P1)/2 对优势的比较。

变量 xi 比 xj 更重要的充分必要条件如下:

优势分析定义的变式:

其中,ρy.x2 表示在模型中自变量对因变量y变异的贡献。

2.2 贡献解剖

第一列标识了每个子模型中的变量,第二列描述了该模型的拟合效果,第三列 (每个自变量对应一列) 描述了由于添加了特定变量而导致的模型拟合度的增加。例如,第一行描述了在空模型里每增加一个自变量后,拟合优度的增加。第二行描述了将其他自变量增加到仅包含 x1 的模型中去,拟合优度的改变量。为了确定成对优势,我们比较了所有行 (子模型) 中的每一队列,对于 P=3,这相当于对每对进行两次比较。

例如,当比较 x1 和 x2 时,其中一个比较是检验他们的直接贡献,即 (ρy.x12 VS ρy.x22),以及他们在模型包含 x3 时的额外贡献。如果这两种差异具有相同的符号 (例如,x1 在两种情况下都比 x2 有更大的贡献),就会建立一种优势,即 x1 在模型中比 x2 更重要,即对模型的贡献更大。

2.3 具体示例

一所大型大学正在研究各种因素在预测研究生成绩中的重要性。三个预测因子如下:X1 = 推荐信,X2 = 研究生入学成绩 (GRE),X3 = 本科平均绩点 (GPA)。Y 是读研 2 年后的累计 GPA,下表给出了包含 P=3 预测因子的所有可能模型 (所有可能的模型总共为 7 个,即 231个) 的平方多重相关性。下表显示了优势分析的计算结果:

结果显示,在模型中仅有一个变量时 X2 和 X1 (GRE 分数和推荐信),GRE 分数比推荐信更有助于预测毕业生的表现 (0.2 > 0.1);当模型中有两个变量时,X3 (本科平均绩点) 一定存在时,GRE 分数依然比推荐信更有助于预测毕业生的表现 (0.17 > 0.06)。因此 GRE 分数在模型中比推荐信更重要。

同理,可以比较 X2 与 X3 的重要性。当模型中仅有一个变量时 (GRE 分数和 GPA),GRE 分数比 GPA 更有助于预测毕业生的表现 (0.2 > 0.15);当模型中有两个变量时,X1 (推荐信) 一定存在时,GRE 分数依然比 GPA 更有助于预测毕业生的表现 (0.15 > 0.11)。因此,GRE 分数在模型中比 GPA 分数更重要。同理,我们也可以验证在模型中,X3 (GPA) 比 X1 在模型中更重要。

一个变量比另一个变量重要,即它在任何子模型中对因变量的预测能力都大于另一个。因此,对于这三个自变量,我们可以对其在模型中的重要性进行排序,即 X2X3X1。然而由于 Budescu (1993) 的重要性定义过于严格,很难对 3 个以上自变量进行排序,因此通常不能完全确立所有自变量的有意义的排序。2003 年 Azen 等提出了完全优势分析方法、条件优势分析方法和一般优势分析方法。

2.4 重要性量化

上文介绍了如何比较哪个变量在模型中更重要,但具体到重要性有多大呢?下面将对这一问题进行介绍。

具体来看,让 Cxi(k) 表示 xi 添加到有 k(k=0,1,,,,p1) 个变量组成的所有 (p1k) 个子模型中的平均贡献增量:

xh 为 k 个变量的任何子集,并不包括 xi。通过平均所有 P 个子模型的 Cxi(k) 值得到 Cxi

Cxj 之和等于总模型的 ρy.x1xp2,公式表示为:

因此,各变量的相对重要性可表示为各自变量解释因变量变异的方差比例。

例如,设有 3 个随机变量 x1x2x3,计算含有 k(k=0,12) 各变量的每个模型中各变量的平均贡献,然后平均所有模型中的这些贡献。x1的重要性计算如下:

则 Cx1 为以上 3 个部分的平均值:

Cx2 和 Cx3 的计算同上所述,通过比较 Cx1Cx2Cx3 的大小来估计各自变量的相对重要性。

仍以 2.3 部分中关于「各种因素在预测研究生成绩中的重要性」为例,量化各变量的重要性,具体见下表:

上表中第四行分别表示了推荐信、GRE、GPA 成绩对模型的贡献,可以看出 GRE 的贡献是最大的,占到 46.8%;其次是 GPA 成绩,其对模型的贡献占比为 34.6%;最后是推荐信,其贡献占比为 18.6%。三个变量的贡献分别是 0.069、0.173 和 0.128,这三个值加起来就是完全模型的拟合优度 (0.37)。

3. 方法扩展

专门的相对重要性分析方法主要应用于具有一个因变量的模型,但由于多个因变量模型越来越普遍,我们试图将相对重要性分析扩展到更多类型的多元模型。具体来说,可以将相对重要性分析扩展到具有多个自变量和因变量的模型。在将相对重要性扩展到其他多元模型的过程中,我们建立了一个更加广泛的概念,参数估计相对重要性 (PERI)。

在下图中,Model 1a 模型是单方程模型,即模型中只有一个因变量。相对重要性分析还可以扩展到一组有限的多因变量模型,这种多因变量模型就是 Model 1b。

具体而言,在多因变量线性数据分析中,与单个自变量相关的所有回归斜率参数要么同时估计,要么同时从模型中忽略。因此,与自变量相关的参数估计被视为一个集合。DA 的完全析因实验结构 (简单来说,完全析因实验是指将所有因子的所有水平的所有组合都至少进行一次实验) 可从单斜率参数 (一个自变量只对应一个斜率,如 Model 1a) 的线性回归推广到多斜率参数 (一个自变量对应多个斜率,如 Model 1b) 的多元线性回归。很多应用于现实中的理论模型并不像上图中的那么简单,比如说存在中介效应等。

尽管结构相似,但 Model 1a 和 Model 2a 在确定 IVRI (independent variable relative importance) 方面有不同的含义。特别是,Model 1a 是一个标准的线性回归,其中所有的自变量都与一个因变量相关。在这种情况下,所有的自变量比较 (即 X1X2X3),都根据它们在解释单个因变量的方差变动贡献,而进行相互比较。而在 Model 2a 中,由于每个自变量不再预测相同的因变量,因此比较会发生变化。

具体来说,X1 预测 X2,而 X2 和 X3 预测 Y。因此,Model 2a 将导致需要比较嵌套在因变量中的自变量。这是因为 X1 在 Model 2a 中解释的方差来源不同于 X2 和 X3 解释的方差来源。从现存的文献中,如何确定 Model 2a 中的 IVRI 的问题并不清楚。然而,我们认为,在多因变量统计模型中,自变量和因变量相互嵌套的可能性是将现有的 IVRI 概念应用于确定多元模型相对重要性的明显局限性。相比之下,在 Model 1a 中,IVRI 只归因于自变量,因为它们都预测同一个因变量。

通过发展一种不同的相对重要性的概念化来解决上述 IVRI (independent variable relative importance) 方法的局限性。在试图将 IVRI 应用于多变量模型时,一些概念问题,如自变量和因变量的嵌套,需要寻求转变来解决,这种转变倾向于考虑参数估计的相对重要性,而不是自变量的相对重要性。

PERI (parameter estimate relative importance) 重点是模型拟合,因为它归因于参数估计,而不是自变量。这种对特定参数估计的关注避免了 Model 2a、2b 中的自变量和因变量的嵌套。对参数估计的关注包括纳入不区分自变量和因变量的估计,如协方差。

4. Stata 实操

我们可以使用外部命令 domin 来实现上述分析,详情参见此前的推文 R2分解:相对重要性分析 (Dominance Analysis)

在最近的一篇论文中,Luchman 详细介绍了一组用于实现相对重要性分析的 Stata 命令,详见:

Luchman, Joseph N. 2021. “Determining Relative Importance in Stata Using Dominance Analysis: Domin and Domme:” Stata Journal 21 (2): 510–38. -PDF-

domin 命令组最新版的下载方式如下:

* 程序包介绍
. net describe st0645, from(http://www.stata-journal.com/software/sj21-2) 

* 程序文件下载
. ssc install st0645.pkg, replace

* 范例数据下载
. ssc get     st0645.pkg, replace

该命令包中包含两个命令:

  • domin:Dominance analysis
  • mvdom:multivariate regression dominance analysis
  • domme:Dominance analysis for mulitple equation models
  • mixdom:linear mixed effects regression dominance analysis

详情可以查阅其帮助文件:

. help domin
. help mvdom
. help domme
. help mixdom

5. 结语

在多元回归过程中,研究者不仅要得出一个包含多个自变量的回归等式,而且要指出哪个自变量相对来说最重要,这样的结果在实际中有很大的现实意义。但是大多数情况下,各个自变量之间存在着不可忽略的相关,这个时候重要性的比较就不能简单的从标准化回归系数中得出。为此,本文主要详细介绍了 DA 方法的理论逻辑,并简要介绍了其在多因变量模型中的应用。

6. 参考资料和文献

  • Azen R, Budescu D V. The dominance analysis approach for comparing predictors in multiple regression[J]. Psychological methods, 2003, 8(2): 129. -PDF-
  • Azen, R., & Budescu, D. V. (2006). Comparing predictors in multivariate regression models: An extension of dominance analysis. Journal of Educational and Behavioral Statistics, 31(2), 157-180.
  • Azen, R. & Traxel, N. M. (2009). Using dominance analysis to determine predictor importance in logistic regression. Journal of Educational and Behavioral Statistics, 34, pp 319-347.
  • Budescu D V. Dominance analysis: a new approach to the problem of relative importance of predictors in multiple regression[J]. Psychological bulletin, 1993, 114(3): 542. -PDF-
  • Grömping, U. (2007). Estimators of relative importance in linear regression based on variance decomposition. The American Statistician, 61(2), 139-147.
  • Johnson, J. W. (2000). A heuristic method for estimating the relative weight of predictor variables in multiple regression. Multivariate Behavioral Research, 35(1), 1-19.
  • LeBreton, J. M., Ployhart, R. E., & Ladd, R. T. (2004). A Monte Carlo comparison of relative importance methodologies. Organizational Research Methods, 7(3), 258-282.
  • Luchman J N, Lei X, Kaplan S A. Relative importance analysis with multivariate models: Shifting the focus from independent variables to parameter estimates[J]. Journal of Applied Structural Equation Modeling, 2020, 4(2): 1-20. -PDF-
  • Luchman, Joseph N. 2021. “Determining Relative Importance in Stata Using Dominance Analysis: Domin and Domme:” Stata Journal 21 (2): 510–38. -PDF-
  • LeBreton, J. M., Tonidandel, S., & Krasikova, D. V. (2013). Residualized relative importance analysis a technique for the comprehensive decomposition of variance in higher order regression models. Organizational Research Methods, 16 9-473.
  • Luo, W., & Azen, R. (2013). Determining predictor importance in hierarchical linear models using dominance analysis. Journal of Educational and Behavioral Statistics, 38(1), 3-31.
  • Ye D, Ng Y K, Lian Y. Culture and Happiness[J]. Social Indicators Research, 2015, 123(2): 519-547. -PDF--Cited-. Note: 这篇文章对本文介绍的内容进行了细致的说明和应用。
  • Ye, Dezhu, Shuang Pan, Yujun Lian, and Yew-Kwang Ng. 2021. “CULTURE AND SAVINGS: WHY DO ASIANS SAVE MORE?” The Singapore Economic Review 66 (3): 621–51. -Link-, -PDF-
  • 代鲁燕, 黄启风, 张波, 等. 线性模型中自变量相对重要性优势分析法估计及其应用[J]. 浙江预防医学, 2012, 24(9): 7-9. -Link-

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 相对 中介效应 相关性, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh