Stata数据处理:缺失值与多重补漏分析(三)

发布时间:2021-07-23 阅读 447

Stata连享会   主页 || 视频 || 推文 || 知乎 || Bilibili 站

温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。

New! lianxh 命令发布了:
随时搜索推文、Stata 资源。安装:
. ssc install lianxh
详情参见帮助文件 (有惊喜):
. help lianxh
连享会新命令:cnssc, ihelp, rdbalance, gitee, installpkg

课程详情 https://gitee.com/lianxh/Course

课程主页 https://gitee.com/lianxh/Course

⛳ Stata 系列推文:

PDF下载 - 推文合集

作者: 孟佳音 (University College London)
邮箱: jiayin.meng.20@ucl.ac.uk


目录


在本系列的前两篇推文中,我们详细讲述了数据缺失与多重插补的基础知识,相信大家已经对 MVN 和 MICE 多重插补方法有了较全面的理解。本篇推文将重点讲述在多重插补中可能出现的问题:如何确保插补模型 (Imputation Model) 与分析模型 (Analysis Model) 的兼容性 (Compatibility)?如何选取辅助变量 (Auxiliary Variables)?如何应对非正态分布 (Non-normal Data) 以及非线性关系 (Non-linear Terms)?...

1. 确保插补模型的兼容性

插补模型与分析模型之间的兼容性 (Compatibility), 是确保多重插补有效性 (validity) 的关键因素之一。

1.1 什么是兼容性?

插补模型与分析模型兼容指两者存在联合分布 (joint distribution),意味着插补模型和分析模型是条件分布 (conditional distribution)。下面我们用数学公式举例:

假设两个变量 X 和 Y,其中 X 是包含缺失数据的协变量 (covariate variable);Y 是完整的,不含缺失数据的因变量 (dependent variable)。

协变量 (covariate variables):任何可测量并被认为与因变量 (dependent variables) 具有统计关系的变量都可以作为潜在协变量。换句话说,协变量是因变量可能的预测或解释变量。在回归分析中,自变量(即回归量)有时被称为协变量,此时,协变量是最重要的。 然而在大多数其他情况下,与自变量相比,协变量并不是最重要的,它们的出现是因为实验或观察单位是异质的。

令 Y 与 X 符合下列二元正态分布 (Bivariate Normal Distribution, BNV)

分析模型 (Y 对 X 的线性回归) 可以作为条件分布从该上述联合分布中导出:

相似的,变量 X 的插补模型 X 对 Y 的线性回归) 也可以导出条件分布:

因此,分析模型与插补模型是兼容的。

1.2 插补模型的变量选择

在实际操作中,兼容性意味着插补模型应保留分析模型中的所有结构。插补模型中需要包含:

  • 分析模型中包括因变量在内的所有变量
  • 其他潜在的辅助变量 (auxiliary variables)
  • 体现出分析模型中协变量之间的交互作用或非线性关系(若存在)

(1) 当插补模型包含除分析模型的额外项 (例如辅助变量或增加一些交互项)时:

  • 若为正确的额外项,则插补模型的偏差 (bias) 减小,精度 (precision) 提升
  • 若为错误的额外项,分析不会产生偏差,但可能会导致更大的标准误 (standard errors)

(2) 当插补模型从分析模型中排除一些项时:

  • 若为正确排除,插补模型将会很高效 (Rubin, 1996),但这种操作实际中几乎不存在
  • 若为错误排除,插补模型会产生明显偏差 (typically biased)

模型中辅助变量的选取应考虑以下几点 (Carpenter & Kenward, 2013):

辅助变量 (auxiliary variables) 指的是未包含在分析模型中,但是与含有缺失值的目标变量有联系的变量,或者是能够使随机缺失 (MAR) 假设更合理的变量。

  • 能同时预测缺失 (missingness) 和缺失值 (missing values) 的变量应作为插补模型的辅助变量,以减少偏差
  • 仅预测缺失值 (missing values) 的变量可以提高效率,但对偏差无影响
  • 仅预测缺失 (missingness) 的变量不会提供额外信息,不应作为辅助变量

2. 插补次数与模型检验

2.1 插补次数 (m) 的选择

传统的观点认为,考虑到多重插补的效率,m 的取值在 3 到 10 之间。但是如果希望得到较为稳定的标准误 (SE),则需要增加插补的次数。最近根据再现性 (Reproducibility) 观点认为,m 的取值应使蒙特卡洛误差足够小,以便于结果的再现 (White, Royston & Wood, 2011)。

蒙特卡洛误差 (Monte Carlo Error) 是使用相同数据,重复运行相同插补程序的估计标准误。随着 m 的增加,蒙特卡洛误差趋于 0。较小的蒙特卡洛误差可以确保插补结果的稳定。经验法则认为 m 应大于数据集中不完整个体 (incomplete case) 的占比

2.2 模型的检验

随着多重插补在数据处理中的广泛应用,检验多重插补的有效性显得愈发重要。在实际操作中,插补模型和分析模型都需要被检验,而且对分析模型检验的重要性与对插补模型检验的重要性旗鼓相当。

简单方法是在每个插补后的完整数据集中进行模型检验,并报告检查结果。估算每个完整数据集中的残差,并绘制 残差图

3. 插补操作常见问题

3.1 非正态分布

之前我们介绍了 MVN 方法和 MICE 方法,利用线性回归对连续变量进行插补。若缺失数据为非正态分布, MVN 方法不再适用。可以用如下方法应对非正态分布:

  • 在插补前将非正态分布数据转换为正态分布,插补后再将其反方向转换 (常见的操作例如对 “年龄” 和 “性别” 进行对数变换和逆变换)
  • PMM (predictive mean matching, 预测均值匹配) 方法进行插补,其中 MICE 方法可以使用 PMM,命令为 mi impute chained (pmm) ivars, 具体请见 help mi impute chained
PMM
PMM

3.2 非线性

当因变量 Y 与协变量间存在非线性相关关系时,使插补模型与分析模型兼容会变得更加困难。若面对包含因变量 Y 与协变量 X, X2 的回归,可以用以下方法应对非线性关系:

  • 忽略 X 与 X2 的关系,将二者视为两个变量,分别进行插补
  • PMM (predictive mean matching, 预测均值匹配) 方法进行插补,命令为mi impute chained (pmm) ivars

PMM 方法的操作步骤如下:

  • 利用去除缺失值的 X 对 Y 回归,构建插补模型
  • 计算插补模型的系数
  • 利用插补模型的系数和 Y 值预测 X 的缺失值
  • 从无缺失的观测数据中选择离预测值最近的数据作为填充值

3.3 交互项

当模型中存在交互项时,MVN 方法不适用,我们可以用 MICE 方法进行插补。举个例子,假设收缩压 (SBP) 与年龄的关系因性别而异,且在数据中有两个个体的年龄和性别均缺失。以 SBP 为因变量,年龄和性别作为两个协变量进行分析,如下图所示。

交互项
交互项
*MICE 方法交互项
. mi impute chained (logit, include ((sbp*age))) sex (regress, include ((sbp*sex))) age = sbp

4. SMC FCS 方法

上述多重插操作中的常见问题还可以用 SMC FSC 方法处理。SMC FCS (substantive-model compatible fully-conditional specification,实体模型兼容的全条件定义) 方法可以有效的应对非线性和交互项等问题 (Bartlett & Morris, 2015)。

SMC FCS 方法由 MICE 方法演变而来,其核心思想是强制使插补模型与分析模型兼容。当样本量 n 较小时,SMC FCS 方法能快速得到结果,但当 n 扩大时,其速度逐渐下降。

*安装 SMC FCS 命令
. ssc install smcfcs
*针对非线性的命令
. smcfcs regress y x xsq, regress(x) passive(xsq = x^2) m(10)
*针对交互项的命令
. smcfcs regress sbp age sex agesex, regress(age) logit(sex) passive(agesex = age*sex) m(10)

5. 总结

作为数据缺失与多重插补系列的第三篇推文,本文着重讲解了在实际运用多重插补的过程中可能遇到的一些问题,比如非线性和交互项等,以及相应的处理方法。本文的全部讲解基于一个假定条件:模型的因变量不含有缺失数据,而协变量存在缺失数据。对于数据中因变量 Y 含有缺失值的情况,我们并未涉及,有兴趣的学友可以自行查阅相关资料。

6. 参考资料

  • Sterne, J. A., White, I. R., Carlin, J. B., Spratt, M., Royston, P., Kenward, M. G., Wood, A. M., & Carpenter, J. R. 2009. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. Bmj, 338. -PDF-

  • Wood, A. M., White, I. R., & Royston, P. 2008. How should variable selection be performed with multiply imputed data?. Statistics in medicine, 27(17), 3227-3246. -PDF-

  • Carpenter, J., & Kenward, M. 2012. Multiple imputation and its application. John Wiley & Sons. -Book-

  • White, I. R., Royston, P., & Wood, A. M. 2011. Multiple imputation using chained equations: issues and guidance for practice. Statistics in medicine, 30(4), 377-399. -PDF

  • Bartlett, J. W., & Morris, T. P. 2015. Multiple imputation of covariates by substantive-model compatible fully conditional specification. The Stata Journal, 15(2), 437-456. -PDF-

  • University College London PhD Course: Missing Data and Multiple Imputation for Cross-Sectional and Longitudinal Data

7. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 补漏 缺失值 填充
安装最新版 lianxh 命令:
ssc install lianxh, replace

相关课程

免费公开课

最新课程-直播课

专题 嘉宾 直播/回看视频
最新专题 文本分析、机器学习、效率专题、生存分析等
研究设计 连玉君 我的特斯拉-实证研究设计-幻灯片-
面板模型 连玉君 动态面板模型-幻灯片-
面板模型 连玉君 直击面板数据模型 [免费公开课,2小时]
  • Note: 部分课程的资料,PPT 等可以前往 连享会-直播课 主页查看,下载。

课程主页

课程主页

关于我们

  • Stata连享会 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 连享会-主页知乎专栏,400+ 推文,实证分析不再抓狂。直播间 有很多视频课程,可以随时观看。
  • 公众号关键词搜索/回复 功能已经上线。大家可以在公众号左下角点击键盘图标,输入简要关键词,以便快速呈现历史推文,获取工具软件和数据下载。常见关键词:课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法

连享会小程序:扫一扫,看推文,看视频……

扫码加入连享会微信群,提问交流更方便

✏ 连享会-常见问题解答:
https://gitee.com/lianxh/Course/wikis

New! lianxh 命令发布了:
随时搜索连享会推文、Stata 资源,安装命令如下:
. ssc install lianxh
使用详情参见帮助文件 (有惊喜):
. help lianxh