温馨提示: 定期 清理浏览器缓存,可以获得最佳浏览体验。
作者:李琼琼 (山东大学)
E-mail:lqqflora@163.com
目录
在做回归时,连续型的被解释变量有的时候因为截断 (Truncated) 或者截堵 (Censored) 而只能选取一定范围的值, 会导致估计量不一致。Davidson 等 (2004) 定义如果一些观测值被系统地从样本中剔除,称为 截断; 而没有观测值被剔除,但是有部分观测值被限制在某个点上则被称为 截堵。
举个例子,在研究影响家庭负债额的决定因素时,有较多的被解释变量 (负债额) 为 0,有些家庭是因为没有欠债也没有借钱给其他家庭回答负债为 0,也有家庭只借钱给其他家庭 (借钱给其他人负债额为负值),但是后者没有在数据上反映出来。 当研究人员只选择负债大于 0 的样本,此时负债额是 截断变量; 若研究人员保留了负债大于等于 0 的样本,此时的负债额为 截堵变量。 我们将上述情形统称为 受限因变量 (limited dependent variable),对应地就衍生出 「截断回归模型」 (truncated regression models) 和 「截堵回归模型」(censored regression models)。文献中,后者的别名还包括:「归并回归模型」和「审查回归模型」。
上述关于负债的例子属于 左侧受限,也可以将其推广到 右侧受限 (比如样本的负债额不能超过 100 万元) 或 双侧受限 (限定负债额在 0 到 100 万元之间) 的情形。
对于截堵数据,当左侧受限点为 0 ,无右侧受限点时,此模型就是所谓的「规范审查回归模型」,又称为 Tobit 模型 (Tobin,1958)。模型设定如下:
当潜变量
由于使用 OLS 对整个样本进行线性回归,其非线性扰动项将被纳入扰动项中,导致估计不一致,Tobit 提出用 MLE 对模型进行估计。
我们先对该混合分布的概率密度函数进行推导, 再写出其对数似然函数。
当
当
概率密度函数为:
其中,
整个样本的对数似然函数为 :
通过使
Tobit 模型的假设检验是通过似然比检验 (Likelihood Ratio Test, LR) 来实现的,该检验的原假设为:
LR 统计量为:
其中,
在 Probit 模型和 Logit 模型等非线性模型中,估计量
其中,
上式说明
经过化简后可得:
对以上三种边际效应进行总结:
解释变量的偏效应 | 函数形式 |
---|---|
对潜变量 |
|
对变量 |
|
对变量 |
注:
Stata 提供 tobit
命令对归并回归模型进行估计。 在命令窗口中输入 help tobit
命令即可查看其完整帮助文件。tobit
命令的基本语法为:
tobit depvar [indepvars] [if] [in] [weight],11[(#)] ul[(#)] [options]
其中 ll[(#)]
表示左归并,# 是左侧受限点的具体值 ;ul[(#)]
表示右归并,# 是右侧受限点的具体值。在实际运用中,可以只选择左归并或者右归并,也可以同时选择。
下面以研究影响 非住院医疗费用 的因素为例,我们来对如何使用 Stata 做 Tobit 模型估计进行详细的介绍。
非住院医疗费用 (ambulatory expenditure,ambexp) 作为被解释变量,解释变量包括:年龄 (age), 是否为女性 (female), 教育年限 (educ) 以及 totchr, totchr 和 ins 等变量。
首先对被解释变量进行观察,
从上图可以发现,有超过 10% 的比例的被解释变量其数值为0, 这个时候我们考虑进行线性 Tobit 模型 (linear tobit model) 估计。具体的命令和估计结果如下
use mus16data.dta, clear
global xlist age female educ blhisp totchr ins // 定义将所有的解释变量定义为全局变量 $xlist
tobit ambexp $xlist, ll(0)
在做完回归之后,使用 margins
命令分别进行三种偏边际效应的估计
margins, dydx(*)
解释:以教育的为例,教育年限对在非住院医疗上的 预期花费 平均边际效应为 70.87。
margins, dydx(*) predict(ystar(0,.))
解释:相当于截断模型的平均边际效应,在非住院医疗费用的实际支出大于 0 的样本中,教育年限对于非住院医疗费用的实际支出的平均边际效应为 33.34。
margins, dydx(*) predict( e(0,.))
解释:教育年限对于非住院医疗费用的实际支出的平均边际效应为 45.44。
在做实证研究时,虽然拥有全部的观测数据, 但是部分观测数据的被解释变量
连享会-直播课 上线了!
http://lianxh.duanshu.com
免费公开课:
直击面板数据模型 - 连玉君,时长:1小时40分钟 Stata 33 讲 - 连玉君, 每讲 15 分钟. 部分直播课 课程资料下载 (PPT,dofiles等)
关于我们
课程, 直播, 视频, 客服, 模型设定, 研究设计, stata, plus, 绘图, 编程, 面板, 论文重现, 可视化, RDD, DID, PSM, 合成控制法
等
连享会小程序:扫一扫,看推文,看视频……
扫码加入连享会微信群,提问交流更方便
✏ 连享会学习群-常见问题解答汇总:
✨ https://gitee.com/arlionn/WD